大模型知识问答: 文本分块要点总结

大模型玩家

于 2024-08-26 14:14:11 发布

阅读量1k

点赞数 26

文章标签：人工智能语言模型自然语言处理大模型 agi ai 程序员

本文链接：https://blog.csdn.net/2401_85375186/article/details/141562834

版权

本文介绍LLM知识问答中文本分块的相关内容。

一、字符切分

Langchain的CharacterTextSplitter，直接按给定的chunk_size（块内最大字符数量）去生硬切分文本块，不考虑文本结构，为了保证文本块之间的上下文联系，基于chunk_overlap（块重叠字符数量）去控制文本块之间的重叠字数，注意，在英文里是按字母数考虑字符数量。当然，也能设置分隔符separator去分割。

图：字符切分

二、句子切分

Llama_index的SentenceSplitter，针对句子层面切分文本块，并且还提供父子节点关系。

三、递归字符切分

Langchain的RecursiveCharacterTextSplitter，默认分割符：[“\n\n”, “\n”, " ", “”]（分别代表段落分隔符、换行符、空格、字符），拆分器首先查找两个换行符（段落分隔符）。一旦段落被分割，它就会查看块的大小，如果块太大，那么它会被下一个分隔符分割。如果块仍然太大，那么它将移动到下一个块上，以此类推。因为某些书写系统没有单词边界，例如中文、日语和泰语等，所以可以增加以下分隔符：[‘\n\n’, ‘\n’, ’ ', ‘.’, ‘,’, ‘\u200b’, ‘，’, ‘、’, ‘．’, ‘。’, ‘’]。

图：递归字符切分

四、按文件风格切分

除了简单的平文本文档，对于其他不同格式的文件（比如HTML, Markdown, PDF等），采用不同的方式切分。比如：

- Markdown： 可以按照#来判断标题级别进行切分，也可以标题块下叠加字符切块；

- Python等代码文件： 可以按照class、def等切分出不同块；

- PDF： 用Unstructured库解析PDF文件，除文本外，表格也能很好抽取出来，由于表格向量化不具备较好的语义信息，一般开发者会将抽取出的表格先做总结，将表格总结向量化加入检索池中，若检索到该表格，则将原始表格喂入LLM内。

- 图片： 有好多做法，比如如果图片具有文本信息，可以直接OCR识别后的文字作为该图片的文本块。如果该图片不具备文本信息，可以用多模态大模型对图片生成图片描述或总结，当然也能用图片embedding，如CLIP。这里不太属于文本分块的讨论范畴，后面会再做分享；

- HTML： 按元素级别拆分文本，并给每个文本块添加元素级别的元数据，能将具有相同元数据的元素组合再一起。

五、语义切分

1、基于Embedding

Langchain的SemanticChunker，由Greg Kamradt提出[1]，有2种方式：

（1）具有位置奖励的层次聚类： Greg想看句子嵌入的层次聚类会如何。但由于发现他选择按句子进行拆分时，有时会在长句子之后出现短小句子。这些尾随的短小句子可能可以改变一个块的含义，所以他添加了一个位置奖励，如果它们是彼此相邻的句子，则更有可能形成聚类。最终结果还不错，但调整参数很慢且不理想；

（2）在连续句子之间找到语义断点： 这是一种遍历方法。先从第一个句子开始，得到向量，然后将其与句子2进行比较，然后比较2和3等等。如果出现向量距离大的断点，如果它高于阈值，那么认为它是一个新语义部分的开始。最初Greg尝试对每个句子进行向量化，但结果发现噪音太大。所以最终选取了3个句子的组（一个窗口），然后得到一个嵌入，然后删除第一个句子，并添加下一个句子。这样效果会好一点。

作者推崇的第二种办法，我总结其主要步骤如下：

1）按分隔符切分出句子sentence；

2）对每个句子，把其前后的句子一起合并成一个窗口的句子组合（即上下文关联，单个句子扩充至3个句子combined_sentence）；

3）将combined_sentence向量化，得到combined_sentence_embedding；

4）计算位置i和位置i+1之间的combined_sentence_embedding的余弦距离distance_to_next，

5）根据余弦距离的分布设置分割阈值，获取断点；

6）基于断点合并句子进文本块中。

图：基于embedding的语义切分

但实际使用还是小心，因为阈值设置不当，容易发送块内字数过多的问题，对后续LLM检索和回答很不利，建议可以根据文档字数，计算number_of_chunks，然后用此参数去调整语义断点的阈值。

2、基于模型

可以用下一句预测（Next Sentence Prediction, NSP）二分类任务的BERT模型，输入前后两个句子，预测句子彼此之间相邻的可能性，若分数低于阈值，说明语义不太相关，可以分割。我们也知道BERT的预训练目标就是MLM（掩码语言建模）和NSP（下一句预测），其中NSP是用[CLS]做二分类预测，所以我们可以直接调用Google的BERT模型 [4]完成基于模型的语义切分方案。

关于利用BERT做文本分割（Text Segmentation）还有很多其他研究，比如：

（1）2020年Google Research提出的《Text segmentation by cross segment attention》：用BERT获取句子表征，然后再输入BiLSTM或Transformer预测每个句子是否为分割边界；

图：《Text segmentation by cross segment attention》

（2）2021年阿里语音实验室在提出的SeqModel模型《Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken Document Segmentation》： 如下图所示，先分句，然后对句子分词，获取token、segment、position embedding后做element-wise求和，再加上发音embedding后喂入BERT编码器，对输出做平均池化，接入softmax输出分类判断每个句子是否为段落边界。为什么加入发音embedding？因为该模型提出的出发点是解决对长会议ASR生成的文本缺乏段落结构的问题。像ASR会出现写转写错误，比如发音相似但含义不同的声学混淆词等。所以把字的发音信息（通过中文发音表查）来增强文本分割模型输入的表征向量（即phone embedding）。

同时，提出了自适应滑窗提升推理速度，就是基于模型预测的段落分割点，去滑动窗口，如下图所示。

图：《Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken Document Segmentation》

以上阿里的SeqModel开源了，我用过SeqModel，说实话一些细节上的体验不是很好，比如带小数点的数字会被误切分。

六、Agent 式切分

我用可以尝试使用LLM做语义切分，其中被讨论最多是腾讯AI Lab在2023年提出的Propositionizer [2]，它好处在于能解决文本中指代消解的问题，比如"it", “he”, “she”, “they”, “this”, "that”指代的实体全称是什么，而且分解成比句子还更细粒度且信息稠密的命题（Proposition），加入文本分块。效果如下图所示：

图：在Wikipedia文本上，三种不同细粒度的检索单元（其中，a）段落块不超过100个字，句子by句子的添加进段落块，确保句子不被强行字符分割，最后一个块少于50字，会和历史句子合并，避免过于小的段落块。b）句子块用Python的SpacCy en_core_web_lg模型做分句，c）命题块则使用Propositionizer模型）

作者实现Propositionizer的步骤如下：

1）从英文Wikipedia拉取2021-10-13至今的数据；

2）对GPT-4做指令微调（Proposition定义和1-shot展示），将段落块作为输入，要求LLM输出一系列命题；

3）将获取并过滤后的4.3万对”段落-to-命题“，作为种子集微调Flan-T5-large模型。

可惜的是，开源的Propositionizer受限于训练语料，仅支持英文。

七、其他文本块优化点

在实践中，我们常发现一些问题，比如：

（1）上下文的关联信息跨度大或信息稀疏，导致文本块内信息密度低。 举例：聊天记录，或某文章分点记录各内容时，用户向该文章提问有哪些分点内容或层次结构。

（2）标题信息过短，导致文本块向量化后，标题语义信息被文本块内其他内容给模糊了。 具体：某文本块内包含标题5个字，标题下内容有300字。

（3）用户提问内容涉及跨多个文件做检索和整合回答时，大多数文本分块方法不具备跨文件关联。

为了解决以上问题，也有对应一些优化手段。

1、摘要增强

用较大chunk_size去字符切分文本，然后对大文本块用LLM做总结，作为摘要块加入向量数据库中。能在一定程度解决前面提到的问题1。

2、标题增强

将标题下的相应文本块，都加入标题前缀，并且重复多几次标题。如：block = concat(’#’.join([title]*3), content_under_title)。能解决前面提到的问题2。

3、假设性问题生成

基于给定的文本块，生成假设性问题，将生成的问题和对应文本块加入检索内容中。Langchain有个Hypothetical Queries方法[3]可调用。能解决前面提到问题1中的聊天记录场景下的信息稀疏问题。其实说直白了，不就是QA对的生成吗？往往好的QA对比文本块更容易被检索到。想要往这方面深入扩展，可以参考Ragas的TestsetGenerator（一套用LLM生成QA的Prompts工程）。

4、父文档检索器

其实父文档检索器简单理解是利用不同chunk_size去分块，先将原始文档拆分成较大块，再对较大块拆分成较小块，然后对较小块进行索引向量检索，最后返回的是相似度高的较小块下的父文本较大块。这样的好处是：较小块语义含义更精准，其父文本块又能保留到足够长的上下文信息。能解决前面提到的问题1。Langchain有ParentDocumentRetriever，llama_index有HierarchicalNodeParser。

5、知识图谱

如果你的数据具有丰富的实体和实体间的关系，建议转换成知识图谱。如果不想手动整理图谱，可以用Langchain的LLMGraphTransformer，利用LLM解析和分类文本中的实体和实体间的关系。能解决前面提到的问题3。

参考资料

[1] 5_Levels_Of_Text_Splitting - Greg Kamradt, 代码：https://github.com/FullStackRetrieval-com/RetrievalTutorials/blob/main/tutorials/LevelsOfTextSplitting/5_Levels_Of_Text_Splitting.ipynb

[2] Dense X Retrieval: What Retrieval Granularity Should We Use? 论文: [2312.06648] Dense X Retrieval: What Retrieval Granularity Should We Use? (arxiv.org)，代码：https://github.com/chentong0/factoid-wiki

[3] Hypothetical Queries, 文档：MultiVector Retriever | 🦜️🔗 LangChain

[4] Bert - Google, 代码：google-bert/bert-base-uncased ·拥抱脸 (huggingface.co)

零基础如何学习大模型 AI

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型实际应用案例分享

①智能客服：某科技公司员工在学习了大模型课程后，成功开发了一套基于自然语言处理的大模型智能客服系统。该系统不仅提高了客户服务效率，还显著降低了人工成本。
②医疗影像分析：一位医学研究人员通过学习大模型课程，掌握了深度学习技术在医疗影像分析中的应用。他开发的算法能够准确识别肿瘤等病变，为医生提供了有力的诊断辅助。
③金融风险管理：一位金融分析师利用大模型课程中学到的知识，开发了一套信用评分模型。该模型帮助银行更准确地评估贷款申请者的信用风险，降低了不良贷款率。
④智能推荐系统：一位电商平台的工程师在学习大模型课程后，优化了平台的商品推荐算法。新算法提高了用户满意度和购买转化率，为公司带来了显著的增长。
…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。