多模态大模型关于RLHF的代表性文章
一、LLaVA-RLHF
题目: ALIGNING LARGE MULTIMODAL MODELS WITH FACTUALLY AUGMENTED RLHF
机构:UC伯克利
论文: https://arxiv.org/pdf/2309.14525.pdf
代码:https://llava-rlhf.github.io/
任务:
特点:
方法:
前置相关工作:
1.1、研究动机
多模态大模型横跨多个模态,因此模态之间的不对齐往往会导致"幻觉",往往不能基于多模态的上下文信息生成文本输出。为了处理这种多模态不对齐的问题,本文借鉴了文本领域的RLHF来处理,通过让人类标注人员来比较不同的response,然后指出幻觉更多的一个,通过这样的人类reward来训练视觉-语言模型。
本文提出了一种新的基于事实增强的RLHF算法,所谓的事实信息诸如图像caption以及gt多项选择,这缓解了RLH
本文探讨了多模态大模型中基于RLHF(Reinforcement Learning from Human Feedback)的方法,包括LLaVA-RLHF、RLHF-V和SILKIE。这些研究旨在解决模态不对齐导致的“幻觉”问题,通过人类反馈来优化模型性能。LLaVA-RLHF使用事实增强的RLHF算法,并提出新的基准测试;RLHF-V致力于通过细粒度的纠正反馈实现行为对齐;SILKIE则聚焦于偏好蒸馏。各项目均展示了RLHF在多模态模型训练中的潜力。
订阅专栏 解锁全文
918

被折叠的 条评论
为什么被折叠?



