RLHF(带有人类反馈的强化学习)初探

我的目标是,在决策游戏上学习某人风格,可以让人对战“带有某人风格”的AI,比如你可以在这里对战“sky风格的AI”,这样的效果。

我最开始受到的启发来源于xbox的广告《爸爸的幽灵车》,已故人在游戏中留下的速度记录的固定轨迹。

万般皆是命。感谢这个时代,我如果2020年底那次考研成功了,可能就等不到LLM在2023年的爆发出现,就等不到2024的RLHF的概念的炒热,如果没有我导师的再三问我想做什么题目我也难以转到这个题目上来。

以上于2024-01-14 21:30:01


下图左侧是 监督学习(数据+loss+模型),右侧是强化学习(环境+回报+agent)

RLHF这方面现在在大语言模型LLM中用的比较多,因为文字易于获取,RHLF作为文字的微调手段更加易于操作,就像聊天和打分一样就完成了。

大模型 | 通俗理解RLHF基础知识以及完整流程_大模型rlhf-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/m0_59614665/article/details/141313659

RLHF(人类反馈强化学习)是什么? - 知乎 (zhihu.com)icon-default.png?t=N7T8https://www.zhihu.com/question/644676855/answer/3399879430

RLHF在agent智能体操作上的资料相对LLM来说是极少的,我就找到几篇相关的论文与代码:

opendilab/awesome-RLHF: A curated list of reinforcement learning with human feedback resources (continually updated) (github.com)icon-default.png?t=N7T8https://github.com/opendilab/awesome-RLHF陈传玺.基于RLHF策略的无人车个性化决策控制研究[D].华东交通大学,2023.

Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces

还有一点,RLHF提及最多的是PPO算法,需要研究一下

在深入研究和思考后发现,现有的比较接近的解决方案是【强化学习中的“模仿学习”】,但是这需要大量的对战数据。

其次,对战数据是死的。比如用相同的策略“过同一个迷宫”是可以的,但如何在双方都有决策,对双方来说都是“动态迷宫” 的环境,就完全不一样了。

还有,怎么样才叫“拥有某人的操作风格”?这个很难去在复杂的RTS游戏中界定,不像赛车游戏那样有限的操作空间——后来我想到了“策略的提取”,这样能体现一个人的相关思想(比如让某个人年轻时的思维来处理现在的问题,与当下的新思维碰同一个问题,一定很有趣。)

我感觉大数据推荐算法的“同一类人”的方法是十分有效的,这个可否在同一局游戏中找到频繁前后相似的地方来进行数据挖掘?

我又想过过去听说过的“心智模式”,人生道路就是这个处事方式决定的,这种成功学论调难以检验,但放到了计算机中,我现在有了“智能体agnet”作为试验的实体,这些猜想就都可以被证明或证伪了!一些概念对应到“心智模式——模型”,“每次都得到这样结果的心智模式——固定的道路”,实体对应就像遗传因子对应到了DNA上那样找到了实体……

……最后,我一直纠结的是最后的硕士成果应该落实到什么上面,是一个软件?是一个更好的方法?还是一个结论?这个我想不清楚。

  • 9
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

超自然祈祷

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值