prompt,RAG,finetune,从零训练大模型对比

1 几种方式

1.1 微调 finetune

1.1.1 全面微调

  • 在全面微调中,所有模型参数都会更新

1.1.2 参数高效微调(PEFT) 

  • 仅更新一小部分参数来进一步调整预训练模型

  • 相比于全面微调,PEFT
    • 更高效、更快的训练
    • 保留预训练中的知识

1.2 prompt engineering

  • 又分为
    • Zero-shot Prompting

    • Few-shot prompting

      • 在用户的查询前添加一些示例,这些示例本质上是样本输入和预期模型输出对

1.3 rag

2 对比 

Prompt Engineering

RAG

微调

从零训练大模型

介绍

通过提供少量示例提供尽可能多的上下文,使基础模型更好地了解用例增加了直接来自向量化信息存储的特定于用例的上下文在特定领域的数据上更新模型权重模型是在用例特定数据上从零开始训练的

准确性

与其他方法相比,它产生的结果最不准确与Prompt Engineering相比,它产生的结果大大改善,而且产生幻觉的可能性非常低也提供了相当精确的结果,输出的质量与RAG相当产生幻觉的几率几乎为零,输出的准确率也是比较中最高的

实现的复杂性

相当低的实现复杂性比Prompt Engineering具有更高的复杂性更复杂最高的实现复杂性

工作量投入

需要大量的迭代努力才能做到正确

基础模型对提示的措辞非常敏感,改变一个词甚至一个动词有时会产生完全不同的反应

由于涉及到创建嵌入和设置矢量存储的任务,RAG也需要很多的工作量,比Prompt Engineering要高一些

微调则比前两个要更加费力。

虽然微调可以用很少的数据完成(在某些情况下甚至大约或少于30个示例),但是设置微调并获得正确的可调参数值需要时间

从头开始训练是所有方法中最费力的方法。

它需要大量的迭代开发来获得具有正确技术和业务结果的最佳模型。

这个过程从收集和管理数据开始,设计模型体系结构,并使用不同的建模方法进行实验,以获得特定用例的最佳模型。

这个过程可能会很长(几周到几个月)

灵活性

非常高的灵活性,因为只需要根据基础模型和用例的变化更改提示模板

很最高程度的灵活性

可以独立地更改嵌入模型、向量存储和LLM,而对其他组件的影响最小

灵活性非常低

因为数据和输入的任何更改都需要另一个微调周期,这可能非常复杂且耗时

灵活性最低的

知识维度

  • RAG 对知识的更新时间和经济成本更低。不需要训练,只需要更新数据库即可。

  • RAG 对知识的掌控力会更强,相比微调更不用担心学不到或者是遗忘的问题。

  • 如果大模型强缺乏某个领域的知识,足量数据的微调才能让模型对该领域有基本的概念

  • 如果不具备领域知识基础,RAG 仍旧无法正确回答。

  • 不适用于知识频繁更新场景

稳定性、可解释性

  • RAG 相比微调能更容易获得更好的效果,突出的是稳定性、可解释性。

  • RAG 的答案直接来自外部知识,更容易核实

  • 微调效果不稳定,训练不好容易出现幻觉
  • 微调可能达到更高的性能上限

成本

  • 训练方面,RAG 的成本就是更新数据库
  • 微调就需要大量的显卡、时间资源
  • 推理方面,考虑到 RAG 本身需要检索,而且检索层为了确保检索准确,还需要很多额外工作,所以推理的耗时会比微调多,但具体多多少,就要看检索模块的复杂程度了
  • 微调后的大模型直接使用,和原本模型的耗时一致。
  • 系统拓展角度。随着项目的发展,大模型训练不一定能支撑多任务,而拿着大模型训好几个,对部署而言并不方便。

但知识内容多的情况下,检索成本会变高

任务特定 vs 通用性

微调通常是为特定任务进行优化,而RAG是通用的,可以用于多种任务微调对于特定任务的完成效果好,但在通用性问题上不够灵活

即时性 vs 训练

RAG 模型可以实现即时的知识更新,无需重新训练,在及时性要求高的应用中占优势微调通常需要重新训练模型,时间成本较高

隐私性

隐私性的挑战来源于

  • 总结:
    • 准确性(低——>高):Prompt Engineering<RAG ≈微调<从零训练大模型
    • 实现复杂性(低——>高):Prompt Engineering<RAG <微调<从零训练大模型
    • 工作量投入(少——>多):Prompt Engineering<RAG <微调<从零训练大模型
    • 灵活性(少——>多):从零训练大模型<微调<Prompt Engineering<RAG

适用场景

RAG微调
  • 知识需要快速更新的领域。

  • 对实时性要求不是特别高的应用场景。

  • 需要高度可解释性或准确性的场景。

  • 数据量较小但质量高的领域。

  • 对模型效果有较高要求,且可以承担相应计算资源消耗的场景。

  • 领域知识比较独特,需要模型深入学习的场景。

3 对比结果可视化

3.1 成本

3.2 实施复杂性

3.3  特定领域术语

3.4  最新知识

3.5 透明度和可解释性

3.6 幻觉

参考内容:Prompt、RAG、微调还是重新训练?如何选择正确的生成式AI的使用方法

选微调、RAG还是微调+RAG?

LLM全面微调、高效参数微调(PEFT)、提示工程(PE)和检索增强生成(RAG):哪一种适合?

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值