Google DeepMind最新研究,将视觉语言大模型作为强化学习的全新奖励来源

这篇论文探讨了如何将预训练的视觉语言模型(如CLIP)应用于强化学习的奖励函数,通过在Playhouse和AndroidEnv环境中实验,结果显示VLM的奖励质量随模型参数增加而提升,潜在地降低了在不同场景下设计奖励的复杂性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

4f0a301365a44f66aabecd2975cb2855.png

论文题目:Vision-Language Models as a Source of Rewards
论文链接:https://arxiv.org/abs/2312.09187

在大型语言模型(LLM)不断发展的进程中,强化学习扮演了重要的角色,ChatGPT就是在GPT-3.5的基础上经过人类反馈的强化学习算法微调得到。而对于强化学习本身而言,如何使其优化算法在各种丰富的开放环境中更好的完成目标是目前研究的主要热点。其中的一个关键限制因素就是需要设计适合多种场景的奖励函数

本文介绍一篇来自Google DeepMind的研究论文,本文探索了使用现成的视觉语言模型(vision-language models,VLM)作为强化学习奖励来源的可行性。具体来说,本文作者选取了CLIP系列模型来对各种不同的语言建模任务进行侧重于视觉模态的奖励,并将其训练各种RL智能体。作者在两个不同的视觉领域中对这种奖励方法进行了实验,实验结果表明,VLM模型生成的奖励质量会随着视觉编码器参数规模的增加而提高。

01.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值