自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_42035282的博客

TAICHIFEI CSDN认证博客专家 CSDN认证企业博客

码龄6年

35: 原创

6万+: 周排名

3万+: 总排名

2万+: 访问

: 等级

854: 积分

525: 粉丝

500: 获赞

12: 评论

544: 收藏

私信

关注

热门文章

分类专栏

最新评论

GPT是什么？直观解释Transformer | 深度学习第5章【3Blue1Brown 官方双语】
竹雨夜滴翠: 总结的很好
GSL的Linux安装和使用教程（小白教程）
lishuaibin_lu: 安装完之后还是有这个错误 Could NOT find GSL (missing: GSL_INCLUDE_DIR GSL_LIBRARY GSL_CBLAS_LIBRARY)
第3课笔记茴香豆：零代码搭建你的 RAG 智能助理
CSDN-Ada助手: 恭喜您写了第18篇博客！标题看起来很吸引人，茴香豆是一种很有趣的食材啊！零代码搭建智能助理听起来也很厉害，希望您能继续分享更多这样有趣且实用的内容。或许下一步可以分享一些关于如何让智能助理更加智能和个性化的主题，期待您的新作品！愿您继续创作，不断进步！
第3课作业茴香豆：零代码搭建你的 RAG 智能助理
CSDN-Ada助手: 恭喜用户第19篇博客的问世！标题看起来非常吸引人，茴香豆和零代码搭建RAG智能助理的结合听起来很有趣。希望您能继续保持创作的热情和耐心，分享更多有趣且有启发性的内容给读者。或许下一步可以尝试探索不同的主题或者尝试结合其他技术进行创作，相信会有更多的惊喜等待着大家的！期待您的下一篇作品！
第五课笔记 LMDeploy 大模型量化部署实践
CSDN-Ada助手: 恭喜您在第五课上分享了关于LMDeploy 大模型量化部署实践的笔记！持续创作非常值得鼓励，希望您能继续分享更多关于实践经验和心得的内容。或许下一步可以考虑分享一些具体的案例分析或者实际操作中遇到的挑战和解决方案，这样对读者来说也会更具参考价值。期待您的下一篇作品！

最新文章

Llama 3

关注

文章平均质量分 70

关注数：文章数：1 文章阅读量：679 文章收藏量：4

作者: TAICHIFEI

上士闻道，勤而行之；中士闻道，若存若亡；下士闻道，大笑之。不笑不足以为道。

展开

笔记1--Llama 3 超级课堂 | Llama3概述与演进历程

DPO 无需训练额外的奖励模型，从而节省了计算资源并消除了与奖励模型准确性和维护相关的挑战。与RLHF 涉及收集详细反馈、优化复杂策略和奖励模型训练的多层过程不同，DPO 直接将人类偏好集成到训练循环中。此外，DPO 不涉及构建和调整奖励函数的复杂性。DPO 使用 LLM 作为奖励模型，并采用二元交叉熵目标来优化策略，利用人类偏好数据来识别哪些响应是首选的，哪些不是。与 RLHF 首先训练奖励模型进行策略优化不同，DPO 直接将偏好信息添加到优化过程中，而无需训练奖励模型的中间步骤。

原创 2024-05-02 13:39:52 · 679 阅读 · 0 评论