SsR.XX
码龄6年
关注
提问 私信
  • 博客:6,877
    6,877
    总访问量
  • 2
    原创
  • 343,124
    排名
  • 1
    粉丝
  • 0
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2019-03-22
博客简介:

chacha_的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    1
    当前总分
    44
    当月
    0
个人成就
  • 获得8次点赞
  • 内容获得0次评论
  • 获得20次收藏
创作历程
  • 1篇
    2023年
  • 1篇
    2022年
成就勋章
TA的专栏
  • 论文笔记
    1篇
  • 课程笔记
    1篇
  • Java
  • PAT
兴趣领域 设置
  • 数据结构与算法
    推荐算法
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

直接偏好优化算法(Direct Preference Optimization,DPO)

基于**人类反馈的强化学习(RLHF)**是一个复杂且不稳定的过程,首先拟合一个反映人类偏好的奖励模型,然后使用强化学习对大语言模型进行微调,以最大限度地提高估计奖励,同时又不能偏离原始模型太远。这涉及训练多个 LM,并在训练循环中从 LM 采样,从而产生大量的计算成本。本文作者提出了**直接偏好优化(DPO)**算法,它稳定、高效且计算量轻,。实验表明,DPO 可以微调 LMs,使其与人类偏好保持一致,与现有方法一样或更好。
原创
发布博客 2023.11.21 ·
5339 阅读 ·
8 点赞 ·
0 评论 ·
19 收藏

用于图网络的传统机器学习方法(CS224W课程笔记)

图的传统手工特征
原创
发布博客 2022.03.13 ·
1474 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏