学习笔记 | 书生·浦语大模型全链路开源体系

1、模型的发展方向:专用模型到通用大模型。

2、模型应用的典型流程

​ 先进行模型的选型,若业务场景不复杂,则可直接进行模型评测和部署;若业务场景复杂,则需根据算力进行继续训练、全参数或部分参数的微调,随后,若需要进行环境交互(API等),还需构建智能体。经过上面的步骤,模型在评测后即可部署。

3、微调

增量续训:让基座模型学习到新的垂类领域的知识;

有监督微调:让模型理解指令并对话,或注入少量领域知识。

​ eg. 部分参数微调可以借助低秩自适应 (LoRA):冻结预训练模型权重,将原始矩阵分解为两个矩阵的乘积,其中一个矩阵的秩比另一个矩阵的秩低。这时只需要将低秩矩阵注入Transformer架构的每一层,就可以减少模型参数数量,提高训练吞吐量,并且在模型质量上表现出色,且不会增加推理延迟。

4、目前大模型的问题

​ 理科能力和模型尺寸关联度高(文科相差较小),模型的幻觉效应。

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值