多模态大模型:关于RLHF那些事儿

本文探讨了多模态大模型中基于RLHF(Reinforcement Learning from Human Feedback)的方法,包括LLaVA-RLHF、RLHF-V和SILKIE。这些研究旨在解决模态不对齐导致的“幻觉”问题,通过人类反馈来优化模型性能。LLaVA-RLHF使用事实增强的RLHF算法,并提出新的基准测试;RLHF-V致力于通过细粒度的纠正反馈实现行为对齐;SILKIE则聚焦于偏好蒸馏。各项目均展示了RLHF在多模态模型训练中的潜力。
摘要由CSDN通过智能技术生成

多模态大模型关于RLHF的代表性文章

一、LLaVA-RLHF

题目: ALIGNING LARGE MULTIMODAL MODELS WITH FACTUALLY AUGMENTED RLHF
机构:UC伯克利
论文: https://arxiv.org/pdf/2309.14525.pdf
代码:https://llava-rlhf.github.io/
任务:
特点:
方法:
前置相关工作:

1.1、研究动机

多模态大模型横跨多个模态,因此模态之间的不对齐往往会导致"幻觉",往往不能基于多模态的上下文信息生成文本输出。为了处理这种多模态不对齐的问题,本文借鉴了文本领域的RLHF来处理,通过让人类标注人员来比较不同的response,然后指出幻觉更多的一个,通过这样的人类reward来训练视觉-语言模型。

本文提出了一种新的基于事实增强的RLHF算法,所谓的事实信息诸如图像caption以及gt多项选择,这缓解了RLH

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

猴猴猪猪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值