笔记1--Llama 3 超级课堂 | Llama3概述与演进历程

TAICHIFEI

已于 2024-05-02 13:50:44 修改

阅读量730

点赞数 3

分类专栏： Llama 3 文章标签：人工智能 chatgpt 语言模型学习笔记

于 2024-05-02 13:39:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42035282/article/details/138309325

版权

Llama 3 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、Llama 3概述

https://github.com/SmartFlowAI/Llama3-Tutorial.git
【Llama 3 五一超级课堂 | Llama3概述与演进历程】
在这里插入图片描述

在这里插入图片描述

2、Llama 3 改进点

【最新【大模型微调】大模型llama3技术全面解析大模型应用部署据说llama3不满足scaling law？】 https://www.bilibili.com/video/BV1kM4m1f7iM/?share_source=copy_web&vd_source=dda2d2fa9c7a85f3fb74cf7ccca3de22

GQA
在这里插入图片描述

在这里插入图片描述

编码词表
在这里插入图片描述
数据合成

模型最优化

160B和15T

DPO

在这里插入图片描述

与 RLHF 首先训练奖励模型进行策略优化不同，DPO 直接将偏好信息添加到优化过程中，而无需训练奖励模型的中间步骤。

DPO 使用 LLM 作为奖励模型，并采用二元交叉熵目标来优化策略，利用人类偏好数据来识别哪些响应是首选的，哪些不是。该政策根据首选反应进行调整，以提高其绩效。

DPO 与 RLHF 相比具有以下诸多优点：

简单且易于实施

与RLHF 涉及收集详细反馈、优化复杂策略和奖励模型训练的多层过程不同，DPO 直接将人类偏好集成到训练循环中。这种方法不仅消除了与过程相关的复杂性，而且更好地与预训练和微调的标准系统保持一致。此外，DPO 不涉及构建和调整奖励函数的复杂性。
无需奖励模型训练
DPO 无需训练额外的奖励模型，从而节省了计算资源并消除了与奖励模型准确性和维护相关的挑战。开发一个有效的奖励模型，将人类反馈解释为人工智能可操作的信号是一项复杂的任务。它需要大量的努力并且需要定期更新才能准确地反映不断变化的人类偏好。 DPO 通过直接利用偏好数据来改进模型，从而完全绕过此步骤。

参考资料：

https://www.cnblogs.com/lemonzhang/p/17910358.html

总结
在这里插入图片描述

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

TAICHIFEI CSDN认证博客专家 CSDN认证企业博客

码龄7年

46: 原创

17万+: 周排名

3万+: 总排名

5万+: 访问

: 等级

1079: 积分

1274: 粉丝

614: 获赞

12: 评论

745: 收藏

私信

关注

热门文章

分类专栏

最新评论

GPT是什么？直观解释Transformer | 深度学习第5章【3Blue1Brown 官方双语】
竹雨夜滴翠: 总结的很好
GSL的Linux安装和使用教程（小白教程）
lishuaibin_lu: 安装完之后还是有这个错误 Could NOT find GSL (missing: GSL_INCLUDE_DIR GSL_LIBRARY GSL_CBLAS_LIBRARY)
第3课笔记茴香豆：零代码搭建你的 RAG 智能助理
CSDN-Ada助手: 恭喜您写了第18篇博客！标题看起来很吸引人，茴香豆是一种很有趣的食材啊！零代码搭建智能助理听起来也很厉害，希望您能继续分享更多这样有趣且实用的内容。或许下一步可以分享一些关于如何让智能助理更加智能和个性化的主题，期待您的新作品！愿您继续创作，不断进步！
第3课作业茴香豆：零代码搭建你的 RAG 智能助理
CSDN-Ada助手: 恭喜用户第19篇博客的问世！标题看起来非常吸引人，茴香豆和零代码搭建RAG智能助理的结合听起来很有趣。希望您能继续保持创作的热情和耐心，分享更多有趣且有启发性的内容给读者。或许下一步可以尝试探索不同的主题或者尝试结合其他技术进行创作，相信会有更多的惊喜等待着大家的！期待您的下一篇作品！
第五课笔记 LMDeploy 大模型量化部署实践
CSDN-Ada助手: 恭喜您在第五课上分享了关于LMDeploy 大模型量化部署实践的笔记！持续创作非常值得鼓励，希望您能继续分享更多关于实践经验和心得的内容。或许下一步可以考虑分享一些具体的案例分析或者实际操作中遇到的挑战和解决方案，这样对读者来说也会更具参考价值。期待您的下一篇作品！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。