超越GPT-4v!全新强化学习框架!关键多模态模型学会打扑克
只用强化学习来微调,无需人类反馈,就能让多模态大模型学会做决策!这种方法得到的模型,已经学会了看图玩扑克、算“12点”等任务,表现甚至超越了GPT-4v。这是来自UC伯克利等高校最新提出的微调方法,研究阵容也是相当豪华:图灵奖三巨头之一、Meta首席AI科学家、纽约大学教授LeCunUC伯克利大牛、ALOHA团队成员Sergry LevineResNeXt一作、Sora基础技术DiT作者谢赛宁香港大学数据科学学院院长、UC伯克利教授马毅。
转载
2024-06-04 14:41:51 ·
27 阅读 ·
0 评论