原文标题: Consistency and Uncertainty: Identifying Unreliable Responses From Black-Box Vision-Language Models for Selective Visual Question Answering
原文代码: 暂无
发布年度: 2024
发布期刊: CVPR
摘要
The goal of selective prediction is to allow an a model to abstain when it may not be able to deliver a reliable prediction, which is important in safety-critical contexts. Existing approaches to selective prediction typically require access to the internals of a model, require retraining a model or study only unimodal models. However, the most powerful models (e.g. GPT-4) are typically only available as black boxes with inaccessible internals, are not retrainable by end-users, and are frequently used for multimodal tasks. We study the possibility of selective prediction for vision-language models in a realistic, black-box setting. We propose using the principle of neighborhood consistency to identify unreliable responses from a black-box vision-language model in question answering tasks. We hypothesize that given only a visual question and model response, the consistency of the model’s responses over the neighborhood of a visual question will indicate reliability. It is impossible to directly sample neighbors in feature space in a black-box setting. Instead, we show that it is possible to use a smaller proxy model to approximately sample from the neighborhood. We find that neighborhood consistency can be used to identify model responses to visual questions that are likely unreliable, even in adversarial settings or settings that are out-of-distribution to the proxy model.
背景
本文虽然不是对抗的任务设定,但仍然保留了黑盒的设定。在商业场景中,大部分的模型都是通过黑盒设定进行访问的。因此,当面临高风险场景中,我们希望模型最好听从专家的意见或放弃回答,而不是给出错误的答案。存在许多选择性预测 或改善模型预测不确定性的方法,例如集成 、特征空间中的梯度引导采样 、重新训练模型或训练辅助模块使用模型预测。选择性预测通常在单模态设置和/或具有封闭世界假设的任务(例如图像分类)中进行研究,并且最近才针对多模态、开放式任务(例如视觉问答)进行研究。
在现有部署中,训练数据是私有的,模型特征和梯度不可用,无法进行再训练,预测数量可能受到 API 的限制,模型输出的训练通常被禁止,并且查询是开放式的。在具有现实约束的黑盒设置中,我们如何从视觉语言模型中识别不可靠的预测?
一种直观的方法是考虑自我一致性:如果给人类受试者两个语义上相等的问题,我们期望人类受试者对问题的答案是相同的。一致性的正式定义为,给定分类器 f (·) 和特征空间中的点 x ∈ RN,对于足够小的 ε,分类器对 x 的 ε 邻域的预测应与 f (x) 一致。实施这些概念中的任何一个都不是一件容易的事。我们如何才能大规模地获得与输入视觉问题“语义等效”的视觉问题?由于我们无法访问黑盒模型的内部表示,我们如何从输入视觉问题的邻域中进行采样?
创新点
首先,我们使用大型 VLM 研究对分布不均、分布外和对抗性输入的 VQA 的选择性预测。接下来,我们描述如何将问题的改述视为来自视觉问题对的 ε 邻域的样本。我们建议将视觉问题生成模型训练为探测模型,以可扩展且廉价地生成给定答案和图像的视觉问题的改写,从而使我们能够从视觉问题对的邻域进行近似采样。为了量化视觉问题对答案的不确定性,我们将问题的改述输入到黑盒 VLM,并计算 VLM 的答案保持不变的改述次数。令人惊讶的是,我们表明,模型生成的“近似改写”的一致性可以有效地识别黑盒视觉语言模型的不可靠预测,即使改写在语义上不等效并且探测模型比预测模型小一个数量级。黑盒模型。
我们的方法类似于从特征空间中输入样本的邻域获取的样本的一致性,但该方法不需要访问视觉语言模型的特征。此外,它不需要保留验证集、访问原始训练数据或重新训练视觉语言模型,使其适合视觉语言模型的黑盒不确定性估计。我们进行了一系列实验,测试在多种环境下使用选择性视觉问答任务来评估预测不确定性的改写一致性的有效性,包括对抗性视觉问题、分布偏移和分布外检测。
Motivating Experiment
我们通过选择性视觉问答的视角,实证检验大型 VLM 的预测不确定性。为了安全性和可靠性,检查分布外和对抗性输入非常重要。因为如果必须回答,VLM模型对提出的每个分布外或对抗性问题, 将具有很高的错误率。然而,由于允许 VLM 弃权,原则上该模型可以在与它知道答案的问题相对应的数据集切片上实现低风险(低错误率)。在黑盒设置中,只有候选答案的原始置信度分数可能可用,因此我们使用最可能答案的置信度作为不确定性。
在图 3 中,对于分布内数据集,通过拒绝数据集中最不确定的 40% 来实现近乎完美的准确性。然而,对于分布外和对抗性数据集,模型准确率缓慢上升,直到拒绝了100%才有较好的效果。原因如图2所示,绘制了 OOD、分布内和对抗性视觉问题的错误和正确答案的置信度得分分布。对于分布内的视觉问题,置信度分布是双峰的,错误和正确答案通过置信度明显区分。对于 OOD 视觉问题,许多正确回答的问题置信度较低,并且很难与错误回答的问题区分开来。类似的情况也发生在对抗性视觉问题中,其中许多问题都被错误地以高置信度回答。尽管单独使用模型置信度来检测模型无法回答的问题的策略对于分布内视觉问题是有效的,但该策略对于分布外和对抗性视觉问题却失败了。
模型
-
任务定义和背景
给定图像 v 和问题 q,选择性视觉问答的任务是决定模型 fVQA(v, q) 是否应该预测答案 a,或者放弃进行预测。该问题的典型解决方案是训练一个选择函数 g(·),产生弃权分数 p r e j ∈ [ 0 , 1 ] p_{rej} ∈ [0, 1] prej∈[0,1]。最简单的选择函数是采用拒绝概率 p r e j = 1 − p ( a ∣ q , v ) p_{rej} = 1 − p(a|q, v) prej=1−p(a∣q,v),其中 p(a|q, v) 是 a 是答案的模型置信度,然后使用阈值 τ ,使得当 prej > τ 时模型放弃,否则进行预测。一个较为复杂的方法是训练参数选择函数g(zv, zq; θ),其中zv和zq分别是模型对问题和图像的密集表示。
在黑盒设置中,无法访问图像 v 和问题 q 的密集表示 zv、zq。现有的选择性预测方法通常假设并评估一组固定的类,但对于 VQA,标签空间可以针对每个任务进行转移(针对不同类型的问题有不同的可接受答案集)或者是开放集。
因此,本文的模型需要满足以下五点要求:
- 该方法不应要求访问黑盒模型 v、q 的内部表示。 2) 该方法应该与模型无关,因为黑盒模型的架构未知。 3) 该方法不应需要黑盒模型的大量预测来训练选择函数,因为每次使用黑盒模型都会产生财务成本,如果需要大量预测来训练,则财务成本可能会很高一个辅助模型。 4) 同样,该方法不应需要保留验证集来校准预测,因为这可能需要对黑盒模型进行大量评估。
-
Deep Structure and Surface Forms
每个句子都有Deep Structure和Surface Forms。本文的rephrase就是想要去寻找用同样的Deep Structure,但是却有不同的Surface Forms。通过这种方式采样原句附近的句子。 -
Rephrasing Generation as Neighborhood Sampling
许多表示学习方法背后的想法是,良好的表示应该将多个表面形式紧密地映射到特征空间中。在黑盒设置中,我们无法访问模型的特征,因此没有直接的方法来探索特征空间中输入的邻域。希望通过rephrasing将句子表面特征进行变,但同时在特征空间中应该与原句子保持临近,因此问题的改述类似于来自问题邻域的样本。
-
Cyclic Generation of Rephrasings
生成问题重述的一种简单方法是反转视觉问答问题。设 p(V)、p(Q)、p(A) 分别表示图像、问题和答案的分布。视觉问题生成可以被看作是对 p(Q|A, V) 的近似,而视觉问答则是对 p(A|Q, V) 的近似。我们想要探查一个黑箱视觉问答模型 fBB (·) 在输入的视觉问题对 v, q 上的预测不确定性,其中 v ∼ p(V) 是图像,q ∼ p(Q) 是问题。VQA 模型 fBB 近似于 p(A|Q, V)。将 VQA 模型 fBB (·) 分配最高概率的答案 a 作为预期答案。然后可以使用一个 VQG 模型 fVQG ≈ p(Q|A, V) 来生成输入问题 q 的重述。为了理解这一点,考虑将来自 fBB (·) ≈ p(A|Q, V) 的最高概率答案 a 输入到 fVQG (·) ≈ p(Q|A, V),然后从视觉问题生成模型中对句子 q′ 进行采样 q′ ∼ fVQG ≈ p(Q|A, V)。在理想的 fVQG (·) 和完全一致的 fBB (·) 情况下,q′ 应该是一个生成的问题,其满足 p(a|q′, v) ≥ p(ai|q′, v)∀ai ∈ A,并且在 ai = a 的情况下等号成立。因此,q′ 是一个与 q 拥有相同答案的问题,这在实际中即为重述。我们在算法1中提供了一个算法列表。
总而言之,我们向黑盒模型询问视觉问题的答案,然后将预测答案提供给视觉问题生成模型,以产生以图像 v 为条件的问题 q′ 和黑盒模型的答案 a,这对应于 VQG 模型认为应该得出预测答案 a 的问题。我们假设 fVQG 生成的改写足够好,fBB 在改写上应该一致,不一致则表明 fBB 存在问题。实际上,由于采样过程的概率性质以及 VQG 模型并不完美,因此不能保证每个 q’ 都是改写(见图 4)。
- 实施细节VQG模型
使用BLIP初始化 VQG 模型 fVQG,并使用标准语言建模损失对其进行训练以最大化 p(a|q, v)。具体来说,使用
伪代码:
实验
- 实验设置
本文选择 ALBEF、BLIP 和 BLIP2作为黑盒模型。并且在三种环境下进行评估:分布内、分布外和对抗性。
- 4.2. 一致性的属性
本节分析一致性:1.,改写一致性的提高是否与模型的在原始问题上准确性相关?2. 对于不同级别的一致性,置信度分布是什么样的?3. 不同数据集之间的一致性分布如何?
在图 7 中,我们绘制了当 fBB 为 BLIP 时答案的准确性,方法是每个答案在原始问题的最多 5 个改写中保持一致性。我们发现,在所有三个数据集中,改写的一致性与准确性相关。提高问题措辞的一致性意味着原始问题的原始答案的风险降低。
接下来,我们研究了模型置信度的分布如何在图 5 的一致性级别上变化。在所有数据集中,一致性级别的数据集切片也具有更大比例的高置信度答案,但保留了相当大比例的低置信度答案。这清楚地表明,一致性和置信度并不等同,并且为一组问题和答案定义了不同的顺序。换句话说,对问题的低置信度并不排除对问题的高度一致性,同样,对问题的高置信度并不能保证模型在问题的改写上高度一致。
最后,在图 6 中绘制每个数据集在给定一致性水平下的百分比。分布内数据集 VQAv2 具有 5 个同意的邻居的问题比例最高,所有其他一致性级别构成了数据集的其余部分。对于分布外数据集 (OKVQA),很大一部分问题 (≈ 40%) 有五个同意的邻居,数据集的其余部分在其他一致性级别之间大致相等地共享。在AdVQA 上,分布几乎是平坦的。由此得出的一个结论是,更高的一致性并不一定更罕见,并且高度依赖于模型对问题所来自的数据分布的理解程度。
- 具有邻域一致性的选择性 VQA
我们转向一个问题,即在选择性视觉问答的设置中,改写一致性是否有用。1. 一致性是否可以选择模型能够很好地理解的测试数据集切片(实现较低风险),或者可以识别模型无法理解并应拒绝的问题(高风险)?2. 在分布外和对抗性环境中,对改写一致性在识别低/高风险问题方面效果如何?3. 当问题生成器比黑盒模型小得多时会发生什么?
为了分析一致性对于区分低风险和高风险输入有多大用处,我们使用了选择性视觉问答的任务。
在图 8 中,我们绘制了分布内、分布外和对抗性视觉问题的风险覆盖曲线。每条曲线都显示了在一致性级别上问题的风险覆盖权衡。例如,标记为 n ≥ 3 的曲线显示了 3 个或更多相邻(改写)与原始答案一致的问题的风险覆盖权衡。因此,n ≥ 0 曲线是表示任何问题的风险覆盖曲线的基线,无论一致性如何。如果对改写表示更高的一致性表明风险较低(并且模型知道答案的可能性更高),我们希望看到模型应该能够在模型更一致的数据集切片上实现较低的风险。在分布内视觉问题 (VQAv2) 上,该模型在具有较高一致性级别的数据集切片的等效覆盖率下实现了较低的风险。类似的情况也适用于分布外数据集 OKVQA 和对抗数据集 AdVQA。通常,该模型能够在数据集的切片上实现较低的风险,在这些切片上,模型相对于改写一致性较高。在表 2 和表 1 中,我们以表格形式显示了特定风险级别的 AdVQA 和 OK-VQA 的风险覆盖信息。最后,在图 3 中,我们展示了即使黑盒模型和问题生成器之间存在较大的尺寸差异,我们的方法也有效。