大语言模型垂直领域融合的最优解:微调or检索增强生成_垂直领域 使用数据增强 还是微调

大语言模型对企业垂直领域知识进行融合,有两个主流方向:Fine-Tuning 微调RAG 检索增强生成

Fine-Tuning 微调

Fine-Tuning是一种通过在大规模预训练模型的基础上,针对特定任务或领域进行微调的方法,核心在于利用预训练模型已经学到的丰富语言知识和泛化能力,通过少量的任务特定数据来优化模型参数,可以使模型更好地适应特定领域的需求和特征。

让大语言模型对企业垂直领域知识或者私域知识进行融合,其中一种方式则是大模型微调,通过将私域知识标注为训练数据,直接对大模型进行增量训练,提升大模型自身的知识储备和认知能力。

通过此方式,涌现出越来越多的垂域大模型,比如:法律大模型,金融大模型,医疗大模型等等垂域大模型

垂直领域大模型的基本套路


Continue PreTraining: 垂直大模型一般利用通用大模型进行二次开发。将私域知识标注为训练数据,给模型注入领域知识,用领域内的语料进行继续的预训练

SFT: 通过SFT激发大模型理解领域内各种问题,增强模型针对领域内各类问题的理解和响应能力。这一过程依赖于精确标注的领域相关数据集,确保模型在拥有一定知识召回能力的基础上,能够更有效地解析并回答领域内的复杂问题。

RLHF: 通过RLHF引入人类偏好来优化模型的行为和输出,以指导模型的训练过程,从而增强模型对人类意图的理解和满足程度。

通过大模型微调融合企业垂直领域知识,虽然解决了大模型缺乏领域专业性,专注于特定任务,能够提供高精准度的解决方案,但是随着企业业务的不断发展和变化,领域知识的更新迭代,垂域大模型需要不断更新和迭代以适应新的需求。这可能需要投入更多的资源和时间进行模型的重新训练调优

RAG检索增强生成

RAG(Retrieval-Augmented Generation)通过在大模型外部构建一套检索体系,解决企业私域知识的提炼和召回问题,并通过 prompt 让大模型在企业私域知识的背景下返回结果,实现企业垂直领域知识或私域知识的融合。

与 Fine-Tuning 不同,RAG 降低了企业对大模型应用的技术门槛,广受非 AI 专业企业的热衷,借助 RAG 框架为企业进行赋能。

RAG 框架构建了 检索 和 生成 的分工机制,在不改变大语言模型 生成能力的基础上,检索现有的大量知识,结合强大的生成模型,为复杂的问答、文本摘要和生成任务带来了全新的解决方案。

然而企业在实践大模型 + RAG 框架时会发现,有时候在某些情况并不尽人意,尽管大模型的推理和生成能力已经日渐成熟,但是 RAG 框架下文本片段 + 向量召回机制下的 检索准确率问题,往往制约了大模型本身能力的发挥。如何更好的协同检索和生成的能力,一直是大模型应用探索的方向

#RAG面临的挑战

  • 信息损失:

    为了实现高效的文档检索,需要将文本数据向量化。数据向量化导致一定程度的信息损失,因为文本数据的复杂性和多样性很难用有限的向量来完全表达。因此,数据向量化可能会忽略一些文本数据的细节和特征,从而影响文档检索的准确性。

  • 语义搜索不准确:

    从文档集合中召回与用户问题最相关的文档,难点在于理解问题和文档的语义,并准确衡量它们之间的相似度。例如是利用向量空间距离度量相似度,但这种方法受限于无法完全反映真实语义及易受噪声干扰,因此语义搜索的准确率难以保证。

  • 检索效果差:

    文本分割不当,影响检索内容的精确度与全面性。文本划分尺寸直接关系到查询时与用户提问的贴合度:过小可能无法涵盖问题所有相关内容;过大则易引入冗余信息。

#RAG的优化实践

为了解决RAG上述面临的问题,我们可以把 RAG 的 检索环节总结成三个步骤:知识预处理、用户提问和知识召回。在每一个步骤里,深化探索帮助改善检索问题的具体实践:

  • 知识预处理:

    知识切分优化: 按固定字符切,有时候会遇到句子含义联系比较紧密的片段被切分成了两条数据,导致数据质量比较差。可以通过语义理解小模型进行句子拆分,使拆分出来的知识片段语义更加完整

    智能摘要: 对整篇文档的内容进行摘要提取,摘要可以用于单独匹配用户的问题

    索引优化: 除了构建向量索引,增加分词索引,图谱索引等,多种索引方式,增加召回的准确率。除此之外,针对知识数据预先用大模型生成一些有关联的假设性问题,当命中这些假设性问题时,也可搜索到相应的知识数据。
    图片加工: 仅依靠图片上下文关系或 ORC 技术对图片进行内容推理的方式可能并不可靠,借助大模型对图片的理解能力,将文档内的图片归纳为文本描述,从而以文本的形式与用户问题匹配。

  • 用户提问:

    RAG-Fusion: 根据原始问题从不同角度生成多个版本的新问题,然后针对每个question进行向量检索,最后通过倒数排名融合来重新排名搜索结果。
    Step-Back Prompting: 从原始问题中后退一步,并提出一个更抽象、更高层次的问题。围绕一个更广泛的概念或原则,LLM更有效地构建它们的推理
    提问降噪: 维护停用词,针对用户提问,去除不起作用的停用词,理解问题的核心

  • 知识召回:

    多路召回: 单纯的语义向量召回时,当文本向量化模型训练不够优时,向量召回的准确率会比较低,此时需要利用其他召回作为补充。采用多路召回的方式,增加分词索引,图谱索引等召回方式,来达到比较好的召回效果。文档去重: 多路召回可能都会召回同一个结果,针对这部分数据要去重。其次,去重后的文档可以根据数据切分的血缘关系,做文档的合并
    重排模型召回: 每种召回策略的排序打分模型有差异,使用统一的评判标准筛选最终统一的数据

RAG想做出来比较容易,但想做好还是比较难的,每个步骤都有可能对最终效果产生影响。

结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识,深入业务场景,精确捕获用户意图,为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费或点击下方蓝色字 即可免费领取↓↓↓

**读者福利 |** 👉2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享 **(安全链接,放心点击)**

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值