大语言模型垂直领域融合的最优解：微调or检索增强生成_垂直领域使用数据增强还是微调

本文链接：https://blog.csdn.net/HUANGXIN9898/article/details/143591906

大语言模型对企业垂直领域知识进行融合，有两个主流方向：Fine-Tuning 微调与RAG 检索增强生成

Fine-Tuning 微调

Fine-Tuning是一种通过在大规模预训练模型的基础上，针对特定任务或领域进行微调的方法，核心在于利用预训练模型已经学到的丰富语言知识和泛化能力，通过少量的任务特定数据来优化模型参数，可以使模型更好地适应特定领域的需求和特征。

让大语言模型对企业垂直领域知识或者私域知识进行融合，其中一种方式则是大模型微调，通过将私域知识标注为训练数据，直接对大模型进行增量训练，提升大模型自身的知识储备和认知能力。

通过此方式，涌现出越来越多的垂域大模型，比如：法律大模型，金融大模型，医疗大模型等等垂域大模型

垂直领域大模型的基本套路

● Continue PreTraining: 垂直大模型一般利用通用大模型进行二次开发。将私域知识标注为训练数据，给模型注入领域知识，用领域内的语料进行继续的预训练。

● SFT: 通过SFT激发大模型理解领域内各种问题，增强模型针对领域内各类问题的理解和响应能力。这一过程依赖于精确标注的领域相关数据集，确保模型在拥有一定知识召回能力的基础上，能够更有效地解析并回答领域内的复杂问题。

● RLHF: 通过RLHF引入人类偏好来优化模型的行为和输出，以指导模型的训练过程，从而增强模型对人类意图的理解和满足程度。

通过大模型微调融合企业垂直领域知识，虽然解决了大模型缺乏领域专业性，专注于特定任务，能够提供高精准度的解决方案，但是随着企业业务的不断发展和变化，领域知识的更新迭代，垂域大模型需要不断更新和迭代以适应新的需求。这可能需要投入更多的资源和时间进行模型的重新训练和调优。

RAG检索增强生成

RAG（Retrieval-Augmented Generation）通过在大模型外部构建一套检索体系，解决企业私域知识的提炼和召回问题，并通过 prompt 让大模型在企业私域知识的背景下返回结果，实现企业垂直领域知识或私域知识的融合。

与 Fine-Tuning 不同，RAG 降低了企业对大模型应用的技术门槛，广受非 AI 专业企业的热衷，借助 RAG 框架为企业进行赋能。

RAG 框架构建了检索和生成的分工机制，在不改变大语言模型生成能力的基础上，检索现有的大量知识，结合强大的生成模型，为复杂的问答、文本摘要和生成任务带来了全新的解决方案。

然而企业在实践大模型 + RAG 框架时会发现，有时候在某些情况并不尽人意，尽管大模型的推理和生成能力已经日渐成熟，但是 RAG 框架下文本片段 + 向量召回机制下的 检索准确率问题，往往制约了大模型本身能力的发挥。如何更好的协同检索和生成的能力，一直是大模型应用探索的方向

#RAG面临的挑战

信息损失：

为了实现高效的文档检索，需要将文本数据向量化。数据向量化导致一定程度的信息损失，因为文本数据的复杂性和多样性很难用有限的向量来完全表达。因此，数据向量化可能会忽略一些文本数据的细节和特征，从而影响文档检索的准确性。
语义搜索不准确：

从文档集合中召回与用户问题最相关的文档，难点在于理解问题和文档的语义，并准确衡量它们之间的相似度。例如是利用向量空间距离度量相似度，但这种方法受限于无法完全反映真实语义及易受噪声干扰，因此语义搜索的准确率难以保证。
检索效果差：

文本分割不当，影响检索内容的精确度与全面性。文本划分尺寸直接关系到查询时与用户提问的贴合度：过小可能无法涵盖问题所有相关内容；过大则易引入冗余信息。

#RAG的优化实践

为了解决RAG上述面临的问题，我们可以把 RAG 的检索环节总结成三个步骤：知识预处理、用户提问和知识召回。在每一个步骤里，深化探索帮助改善检索问题的具体实践：

知识预处理：

知识切分优化： 按固定字符切，有时候会遇到句子含义联系比较紧密的片段被切分成了两条数据，导致数据质量比较差。可以通过语义理解小模型进行句子拆分，使拆分出来的知识片段语义更加完整

智能摘要： 对整篇文档的内容进行摘要提取，摘要可以用于单独匹配用户的问题

索引优化： 除了构建向量索引，增加分词索引，图谱索引等，多种索引方式，增加召回的准确率。除此之外，针对知识数据预先用大模型生成一些有关联的假设性问题，当命中这些假设性问题时，也可搜索到相应的知识数据。
图片加工： 仅依靠图片上下文关系或 ORC 技术对图片进行内容推理的方式可能并不可靠，借助大模型对图片的理解能力，将文档内的图片归纳为文本描述，从而以文本的形式与用户问题匹配。
用户提问：

RAG-Fusion： 根据原始问题从不同角度生成多个版本的新问题，然后针对每个question进行向量检索，最后通过倒数排名融合来重新排名搜索结果。
Step-Back Prompting： 从原始问题中后退一步，并提出一个更抽象、更高层次的问题。围绕一个更广泛的概念或原则，LLM更有效地构建它们的推理
提问降噪： 维护停用词，针对用户提问，去除不起作用的停用词，理解问题的核心
知识召回：

多路召回： 单纯的语义向量召回时，当文本向量化模型训练不够优时，向量召回的准确率会比较低，此时需要利用其他召回作为补充。采用多路召回的方式，增加分词索引，图谱索引等召回方式，来达到比较好的召回效果。文档去重： 多路召回可能都会召回同一个结果，针对这部分数据要去重。其次，去重后的文档可以根据数据切分的血缘关系，做文档的合并
重排模型召回： 每种召回策略的排序打分模型有差异，使用统一的评判标准筛选最终统一的数据

RAG想做出来比较容易，但想做好还是比较难的，每个步骤都有可能对最终效果产生影响。

结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识，深入业务场景，精确捕获用户意图，为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述