RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedba

背景:

多模态大语言模型幻觉(生成的文字不是基于给定图片的)->不可信、不实用

解决:RLHF-V(通过细粒度的纠正性人类反馈进行行为对齐)

幻觉的两种形式:

  1. 生成了图片中不存在的内容的描述

  2. 对于图片中内容的错误描述

对象、属性、数量、位置、动作等

推测原因:

指令微调模型缺乏正面/负面的人类反馈,使得学习排除幻觉的精确行为边界变得困难。

解决思路:

一个简单的解决思路:

思路:

直接将RLHF应用于最先进的LLMs,该方法涉及人类注释者对模型响应进行排序,并利用奖励模型引导策略LLM学习

问题:

  1. 注释歧义。关于丰富图像内容的有用和吸引人的响应通常较长且复杂,通常难以决定哪个响应更可取。当响应各有优缺点时,注释者通常面临两难境地。此外,即使标注了明确的偏好,最佳响应仍然未知(例如,时钟的确切时间)

  2. 学习效率。粗粒度的排序反馈使得难以准确地将信用分配给可取的行为。考虑到响应的语言复杂性和变化性,学习可取行为通常需要大量标注数据。此外,将信用错误地分配给与数据相关的非稳健偏见通常会导致奖励欺骗和行为退化问题。

RLHF-V的改进:

  1. 数据层面:提出以细粒度段落级校正的形式收集人类反馈。

人类注释者直接校正模型响应中的幻觉段落,提供清晰、密集和细粒度的人类偏好,以及最佳响应。这种策略也避免了语言变化和非稳健偏见,确保反馈准确分配到可取的行为,从而提高学习效率并防止奖励欺骗问题。

  1. 方法层面:DDPO,直接偏好优化(DPO)的一种新变体,以等效的简单高效的监督方式解决传统RLHF目标。DDPO直接针对细粒度段落级偏好优化政策模型,其中幻觉段落接收到更强的反馈以确保事实依据。

数据构建:

人类偏好收集:

人类偏好数据的目标是区分高质量响应和劣质响应,为MLLM提供与人类一致的学习信号,以引导其行为。我们首先提供对人类偏好数据的潜在因素的分析,并基于此动机,阐述RLHF-V的人类偏好收集过程。

人类偏好数据:潜在因素和挑战

给定输入x(包括图像和提示),记偏向于的输出$$y_w $$和劣质输出$$y_l$$之间的差异为Y。这个差异Y本质上可以分解为三个因素:$$ Y = Y_p + Y_s + Y_n $$,其中$$Y_p$$是人类真正偏好的行为,例如可信和有用;$$Y_s$$表示与数据相关但与人类判断无关的浅层非稳健偏见(例如,$$y_w$$中特定词语使用频率高);$$Y_n$$是表示自然语言的语言差异的随机噪声因子(例如,不同的表达方式表示相同的意思)。$$Y_p$$是我们希望从差异Y中学习的因素,而适应$$Y_s$$会导致奖励欺骗问题,因此应避免。语言差异$$Y_n$$不会偏向偏好学习,但会使学习更困难,需要更多标注数据来学习偏好因素$$Y_p$$,因此也应尽量避免。

细粒度校正性人类偏好收集

给定MLLMs的劣质输出$$ y_l $$,要求人类注释者直接校正幻觉段落,生成基于事实的最优输出$$ y_w $$。注释同时产生段落级增量偏好对$$( y_w , y_l )$$。

好处:
  • 分段逐步校正的注释对人类标注者更清晰和可操作。

  • 密集和细粒度的反馈直接分配给偏好行为$$ Y_p $$,排除了语言差异$$ Y_n $$和非稳健偏见$$ Y_s $$,从而提高了学习效率,防止奖励欺骗问题。

方法:

Dense Direct Preference Optimization

通过学习人类反馈来减少幻觉

DPO:

奖励函数r(x, y)可以通过其最优策略模型$$ \pi^*(y|x) $$和参考模型$$ \pi_{\text{ref}}(y|x) $$进行解析表示,因此可以在偏好数据上直接优化策略模型。具体来说,奖励模型r(x, y)可以表示为:

$$r(x, y) = \beta \log \frac{\pi^*(y|x)}{\pi_{\text{ref}}(y|x)} + \beta \log Z(x) $$

其中,$$ \beta $$是一个常数,Z(x)是分区函数。

可以在以下偏好数据上直接优化策略模型:

$$ L = -E_{(x, y_w, y_l)} \left[ \log \sigma \left( r(x, y_w) - r(x, y_l) \right) \right] = -E_{(x, y_w, y_l)} \left[ \log \sigma \left( \beta \log \frac{\pi^(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi^(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right) \right] $$

其中,参考模型$$ \pi_{\text{ref}}(y|x) $$通常由我们希望改进的指令微调基础模型实现,并在DPO训练期间保持固定。只有策略模型$$ \pi^*(y|x) $$会被更新。

DDPO:

DPO的动作得分在实践中通过整体响应的似然值给出,其中不同段落被同等对待:

$$ \log \pi(y|x) = \sum_{y_i \in y} \log p(y_i | x, y_{

作者认为,与未改变的段落$$ y_u $$相比,校正的段落$$ y_c $$更直接地反映了人类在幻觉中的判断,因此在整体动作评估中应贡献更多。因此提出将响应评分作为细粒度段落的加权聚合:

$$ \log \pi(y|x) = \frac{1}{N} \left[ \sum_{y_i \in y_u} \log p(y_i | x, y_{

其中,$$ \gamma > 1 $$是加权超参数,较大的$$ \gamma $$表示校正段落的贡献更大。$$ N = |y_u| + \gamma |y_c| $$是一个归一化因子,防止较长的响应获得更高的分数。通过这种方式,校正段落被强调以接收到更强的人类偏好反馈,从而在事实基础上进行改进。

Mitigating Hallucination from VL Mismatch

检查了主流的MLLM训练范式,并识别了训练MLLM时引入幻觉的来源。基于这些观察,提出了一种更可信的训练方法。当前的MLLM通过监督学习范式学习多模态能力,其中模型输出与图像相关的真实文本进行监督。在这种范式下,幻觉可能由图像和文本数据之间的不匹配引入。在实践中,不匹配可能来自:(1)预训练和指令微调数据中的低质量文本,以及(2)训练期间不谨慎的图像增强。我们在以下部分具体说明了这些问题和解决方案。

两种幻觉来源以及解决方案:

  1. 低质量文本
描述:

当前MLLM的预训练数据是自动从网络上抓取的,即使经过广泛的后处理,文本中仍然存在严重的噪音。对MLLM进行监督学习本质上是在教它们产生幻觉(例如,描述图像中不存在的元素,或生成与图像不一致的描述)。类似地,大多数现有的视觉指令微调数据集是通过ChatGPT/GPT-4根据中间文本注释生成的,这不可避免地在指令数据中引入了幻觉。

解决思路:

可以通过简单地在高质量视觉问答数据集上进行后期训练来抵消这种影响。直观地说,人类标注的数据可以为模型提供准确的学习信号,从而校准模型行为,减少幻觉,并增强指令遵循能力。

  1. 不可信图片
描述:

一些图像增强操作可能显著改变图像的语义,使增强后的图像与相关文本不一致。例如,在增强过程中,随机裁剪可能使文本中提到的对象在图像中缺失。这可能导致模型描述不存在的对象,给出错误的数量和位置。

解决思路:

排除数据增强中的图像裁剪操作,从而提高了MLLM的可信度

参考资料:

https://zhuanlan.zhihu.com/p/655464730

https://blog.csdn.net/weixin_45821828/article/details/139779712?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522172223386316800211574910%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=172223386316800211574910&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-4-139779712-null-null.142^v100^pc_search_result_base8&utm_term=Large%20Language%20Model%20Alignment%3A%20A%20Survey&spm=1018.2226.3001.4187

https://blog.csdn.net/weixin_45821828/article/details/139789567?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522172223386316800211574910%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=172223386316800211574910&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-2-139789567-null-null.142^v100^pc_search_result_base8&utm_term=Large%20Language%20Model%20Alignment%3A%20A%20Survey&spm=1018.2226.3001.4187

https://blog.csdn.net/v_JULY_v/article/details/134242910?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522172223563816800178526809%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=172223563816800178526809&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_click~default-2-134242910-null-null.142^v100^pc_search_result_base8&utm_term=dpo&spm=1018.2226.3001.4187

https://huggingface.co/blog/zh/rlhf

  • 26
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值