大模型知识问答: 文本分块要点总结

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对大模型技术趋势、算法项目落地经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。

总结链接如下:

《大模型面试宝典》(2024版) 发布!


本文介绍LLM知识问答中文本分块的相关内容。

图片

一、字符切分

Langchain的CharacterTextSplitter,直接按给定的chunk_size(块内最大字符数量)去生硬切分文本块,不考虑文本结构,为了保证文本块之间的上下文联系,基于chunk_overlap(块重叠字符数量)去控制文本块之间的重叠字数,注意,在英文里是按字母数考虑字符数量。当然,也能设置分隔符separator去分割。

图片

图:字符切分

二、句子切分

Llama_index的SentenceSplitter,针对句子层面切分文本块,并且还提供父子节点关系。

三、递归字符切分

Langchain的RecursiveCharacterTextSplitter,默认分割符:[“\n\n”, “\n”, " ", “”](分别代表段落分隔符、换行符、空格、字符),拆分器首先查找两个换行符(段落分隔符)。一旦段落被分割,它就会查看块的大小,如果块太大,那么它会被下一个分隔符分割。如果块仍然太大,那么它将移动到下一个块上,以此类推。因为某些书写系统没有单词边界,例如中文、日语和泰语等,所以可以增加以下分隔符:[‘\n\n’, ‘\n’, ’ ', ‘.’, ‘,’, ‘\u200b’, ‘,’, ‘、’, ‘.’, ‘。’, ‘’]。

图片

图:递归字符切分

四、按文件风格切分

除了简单的平文本文档,对于其他不同格式的文件(比如HTML, Markdown, PDF等),采用不同的方式切分。比如:

- Markdown: 可以按照#来判断标题级别进行切分,也可以标题块下叠加字符切块;

- Python等代码文件: 可以按照class、def等切分出不同块;

- PDF: 用Unstructured库解析PDF文件,除文本外,表格也能很好抽取出来,由于表格向量化不具备较好的语义信息,一般开发者会将抽取出的表格先做总结,将表格总结向量化加入检索池中,若检索到该表格,则将原始表格喂入LLM内。

- 图片: 有好多做法,比如如果图片具有文本信息,可以直接OCR识别后的文字作为该图片的文本块。如果该图片不具备文本信息,可以用多模态大模型对图片生成图片描述或总结,当然也能用图片embedding,如CLIP。这里不太属于文本分块的讨论范畴,后面会再做分享;

- HTML: 按元素级别拆分文本,并给每个文本块添加元素级别的元数据,能将具有相同元数据的元素组合再一起。

五、语义切分

1、基于Embedding

Langchain的SemanticChunker,由Greg Kamradt提出[1],有2种方式:

(1)具有位置奖励的层次聚类: Greg想看句子嵌入的层次聚类会如何。但由于发现他选择按句子进行拆分时,有时会在长句子之后出现短小句子。这些尾随的短小句子可能可以改变一个块的含义,所以他添加了一个位置奖励,如果它们是彼此相邻的句子,则更有可能形成聚类。最终结果还不错,但调整参数很慢且不理想;

(2)在连续句子之间找到语义断点: 这是一种遍历方法。先从第一个句子开始,得到向量,然后将其与句子2进行比较,然后比较2和3等等。如果出现向量距离大的断点,如果它高于阈值,那么认为它是一个新语义部分的开始。最初Greg尝试对每个句子进行向量化,但结果发现噪音太大。所以最终选取了3个句子的组(一个窗口),然后得到一个嵌入,然后删除第一个句子,并添加下一个句子。这样效果会好一点。

作者推崇的第二种办法,我总结其主要步骤如下:

1)按分隔符切分出句子sentence;

2)对每个句子,把其前后的句子一起合并成一个窗口的句子组合(即上下文关联,单个句子扩充至3个句子combined_sentence);

3)将combined_sentence向量化,得到combined_sentence_embedding;

4)计算位置i和位置i+1之间的combined_sentence_embedding的余弦距离distance_to_next,

5)根据余弦距离的分布设置分割阈值,获取断点;

6)基于断点合并句子进文本块中。

图片

图:基于embedding的语义切分

但实际使用还是小心,因为阈值设置不当,容易发送块内字数过多的问题,对后续LLM检索和回答很不利,建议可以根据文档字数,计算number_of_chunks,然后用此参数去调整语义断点的阈值。

2、基于模型

可以用下一句预测(Next Sentence Prediction, NSP)二分类任务的BERT模型,输入前后两个句子,预测句子彼此之间相邻的可能性,若分数低于阈值,说明语义不太相关,可以分割。我们也知道BERT的预训练目标就是MLM(掩码语言建模)和NSP(下一句预测),其中NSP是用[CLS]做二分类预测,所以我们可以直接调用Google的BERT模型 [4]完成基于模型的语义切分方案。

关于利用BERT做文本分割(Text Segmentation)还有很多其他研究,比如:

(1)2020年Google Research提出的《Text segmentation by cross segment attention》:用BERT获取句子表征,然后再输入BiLSTM或Transformer预测每个句子是否为分割边界;

图片

图:《Text segmentation by cross segment attention》

(2)2021年阿里语音实验室在提出的SeqModel模型《Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken Document Segmentation》: 如下图所示,先分句,然后对句子分词,获取token、segment、position embedding后做element-wise求和,再加上发音embedding后喂入BERT编码器,对输出做平均池化,接入softmax输出分类判断每个句子是否为段落边界。为什么加入发音embedding?因为该模型提出的出发点是解决对长会议ASR生成的文本缺乏段落结构的问题。像ASR会出现写转写错误,比如发音相似但含义不同的声学混淆词等。所以把字的发音信息(通过中文发音表查)来增强文本分割模型输入的表征向量(即phone embedding)。

同时,提出了自适应滑窗提升推理速度,就是基于模型预测的段落分割点,去滑动窗口,如下图所示。

图片

图:《Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken Document Segmentation》

以上阿里的SeqModel开源了,我用过SeqModel,说实话一些细节上的体验不是很好,比如带小数点的数字会被误切分。

六、Agent 式切分

我用可以尝试使用LLM做语义切分,其中被讨论最多是腾讯AI Lab在2023年提出的Propositionizer [2],它好处在于能解决文本中指代消解的问题,比如"it", “he”, “she”, “they”, “this”, "that”指代的实体全称是什么,而且分解成比句子还更细粒度且信息稠密的命题(Proposition),加入文本分块。效果如下图所示:

图片

图:在Wikipedia文本上,三种不同细粒度的检索单元(其中,a)段落块不超过100个字,句子by句子的添加进段落块,确保句子不被强行字符分割,最后一个块少于50字,会和历史句子合并,避免过于小的段落块。b)句子块用Python的SpacCy en_core_web_lg模型做分句,c)命题块则使用Propositionizer模型)

作者实现Propositionizer的步骤如下:

1)从英文Wikipedia拉取2021-10-13至今的数据;

2)对GPT-4做指令微调(Proposition定义和1-shot展示),将段落块作为输入,要求LLM输出一系列命题;

3)将获取并过滤后的4.3万对”段落-to-命题“,作为种子集微调Flan-T5-large模型。

可惜的是,开源的Propositionizer受限于训练语料,仅支持英文。

七、其他文本块优化点

在实践中,我们常发现一些问题,比如:

(1)上下文的关联信息跨度大或信息稀疏,导致文本块内信息密度低。 举例:聊天记录,或某文章分点记录各内容时,用户向该文章提问有哪些分点内容或层次结构。

(2)标题信息过短,导致文本块向量化后,标题语义信息被文本块内其他内容给模糊了。 具体:某文本块内包含标题5个字,标题下内容有300字。

(3)用户提问内容涉及跨多个文件做检索和整合回答时,大多数文本分块方法不具备跨文件关联。

为了解决以上问题,也有对应一些优化手段。

1、摘要增强

用较大chunk_size去字符切分文本,然后对大文本块用LLM做总结,作为摘要块加入向量数据库中。能在一定程度解决前面提到的问题1。

2、标题增强

将标题下的相应文本块,都加入标题前缀,并且重复多几次标题。如:block = concat(’#’.join([title]*3), content_under_title)。能解决前面提到的问题2。

3、假设性问题生成

基于给定的文本块,生成假设性问题,将生成的问题和对应文本块加入检索内容中。Langchain有个Hypothetical Queries方法[3]可调用。能解决前面提到问题1中的聊天记录场景下的信息稀疏问题。其实说直白了,不就是QA对的生成吗?往往好的QA对比文本块更容易被检索到。想要往这方面深入扩展,可以参考Ragas的TestsetGenerator(一套用LLM生成QA的Prompts工程)。

4、父文档检索器

其实父文档检索器简单理解是利用不同chunk_size去分块,先将原始文档拆分成较大块,再对较大块拆分成较小块,然后对较小块进行索引向量检索,最后返回的是相似度高的较小块下的父文本较大块。这样的好处是:较小块语义含义更精准,其父文本块又能保留到足够长的上下文信息。能解决前面提到的问题1。Langchain有ParentDocumentRetriever,llama_index有HierarchicalNodeParser。

5、知识图谱

如果你的数据具有丰富的实体和实体间的关系,建议转换成知识图谱。如果不想手动整理图谱,可以用Langchain的LLMGraphTransformer,利用LLM解析和分类文本中的实体和实体间的关系。能解决前面提到的问题3。

参考资料

[1] 5_Levels_Of_Text_Splitting - Greg Kamradt, 代码:https://github.com/FullStackRetrieval-com/RetrievalTutorials/blob/main/tutorials/LevelsOfTextSplitting/5_Levels_Of_Text_Splitting.ipynb

[2] Dense X Retrieval: What Retrieval Granularity Should We Use? 论文: [2312.06648] Dense X Retrieval: What Retrieval Granularity Should We Use? (arxiv.org),代码:https://github.com/chentong0/factoid-wiki

[3] Hypothetical Queries, 文档:MultiVector Retriever | 🦜️🔗 LangChain

[4] Bert - Google, 代码:google-bert/bert-base-uncased ·拥抱脸 (huggingface.co)

<think>好的,我现在需要帮用户解答如何使用大语言模型构建数据库问答系统的问题。根据用户提供的引用资料,我需要先理清整个流程,并确保符合系统级指令的要求,比如正确使用LaTeX格式,生成相关问题等。 首先,用户提到了四个引用,其中引用[3]和[4]详细说明了构建步骤和需要使用的技术,比如向量数据库、文档拆分、嵌入模型等。引用[2]则强调了大语言模型在问答系统中的核心作用,而引用[1]和[4]提供了实际应用案例和扩展方案。 接下来,我需要按照用户的要求,结构清晰地分步骤回答。可能需要分为方案设计、实现步骤、关键技术、应用案例和优化方向几个部分。同时,要注意使用中文,行内公式用$...$,独立公式用$$...$$,并确保LaTeX语法正确。 然后,检查是否有遗漏的要点。例如,用户想知道方案和实现方法,所以需要涵盖数据准备、模型选择、系统架构、检索与生成等环节。引用[3]中的步骤包括文档拆分、嵌入、存储到数据库,检索相关文档,再生成答案。这部分需要详细说明。 另外,引用[4]提到了处理多模态数据,可能需要简要提及,但用户主要关注数据库问答系统,所以可能不需要深入多模态,但可以作为扩展方案提到。 还要注意引用标识的位置,每个引用的内容末尾加上对应的标识,例如在提到文档拆分和嵌入时引用[3],在提到Multi-Vector Retriever时引用[4]。 然后,生成相关问题。根据示例中的快速排序相关问题,我需要提出几个与构建数据库问答系统相关的问题,比如技术难点、与传统方法的对比、向量数据库的作用、多模态支持等。 最后,确保回答结构清晰,分点明确,符合用户要求的“帮助用户逐步解决问题”,并保证信息真实可靠,引用正确。</think>### 使用大型语言模型构建数据库问答系统的方案和实现方法 #### 一、核心方案设计 基于大语言模型的数据库问答系统通常采用「检索增强生成(RAG)」架构[^3],结合向量数据库实现高效知识检索。系统流程可分为: 1. **知识库构建**:将数据库表结构、文档等非结构化数据拆分为语义段落 2. **向量化处理**:使用如$BERT$等模型生成文本嵌入$v = f_{enc}(text)$ 3. **混合检索**:同时支持关键词搜索和语义相似度检索 4. **答案生成**:通过Prompt工程将检索结果注入大模型生成自然语言回答 #### 二、具体实现步骤 1. **数据预处理** - 文档拆分:使用滑动窗口算法切分长文本,保持语义连贯性[^3] - 元数据标注:添加数据表名、字段说明等结构化信息 ```python # 示例文本分块 from langchain.text_splitter import RecursiveCharacterTextSplitter splitter = RecursiveCharacterTextSplitter(chunk_size=500) documents = splitter.split_documents(db_docs) ``` 2. **向量化存储** - 使用Sentence-BERT等模型生成嵌入向量: $$v_i = \text{BERT}(text_i) \in \mathbb{R}^{768}$$ - 将向量存入向量数据库(如FAISS、Milvus) 3. **混合检索系统** - 实现基于TF-IDF的关键词检索和基于余弦相似度的语义检索: $$\text{similarity} = \frac{v_q \cdot v_d}{\|v_q\| \|v_d\|}$$ - 采用rerank算法优化检索精度[^4] 4. **大模型集成** - 设计Prompt模板注入上下文: ``` 你是一个数据库专家,请根据以下表结构信息回答问题: [表结构] [相关文档] 问题:{用户提问} ``` #### 三、关键技术 1. **多向量检索器**:同时处理文本、表格和图像的多模态数据[^4] 2. **查询理解**:使用LLM将自然语言问题转换为SQL查询片段 3. **缓存机制**:对高频查询建立向量缓存加速响应 #### 四、应用案例 百度智能云数据库团队采用该方案实现了智能运维问答系统,将问题响应准确率提升40%[^1]。系统可处理如: - "查询用户表中最近7天的活跃用户数" - "解释订单表的status字段枚举值含义" #### 五、优化方向 1. 使用LoRA等轻量化微调方法适配特定领域 2. 构建反馈闭环机制持续优化检索结果 3. 引入图数据库处理复杂关联查询
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值