简介
本文是POSTECH和Kakao合作的一篇文章。
论文链接
动机
异常检测有助于提升模型的稳定性和可靠性,也就是鲁棒性,OOD问题也可以视为一种异常。但是,单模态的异常检测(MSP)并不能轻易的使用到VQA这种多模态任务中。作者提出了一种基于attention的方法(MAP),可以对VQA中的五种异常进行检测。
方法
首先,作者将VQA任务中的异常情况分为五种,也就是五个TASK。
- TASK1~TASK3
这三个TASK很好理解,就是在输入的视觉信息 V V V和语言信息 Q Q Q中,至少有一类是来自于OOD的。 - TASK4
TASK4指的是: V V V和 Q Q Q不相关。即:难以建立两个模态之间的关联。 - TASK5
TASK5指的是:通过 V V V和 Q Q Q得到的 A A A是OOD的。即:答案 A A A是未定义的。
结合下面这几种异常示例,可以便于理解。
传统的单模态异常检测方法,使用 softmax \text{softmax} softmax判断模型输出的置信度,当置信度低于阈值时,则认为发生了异常。但是这种方法不适用于VQA任务,主要有两方面原因:① 置信度是基于 p ( a ∣ v , q ) p(a|v,q) p(a∣v,q)计算的,对前四种TASK无法区分;② 进行多模态特征融合后,原本的OOD可能会消失,即: V V V和 Q Q Q的OOD在进行特征融合后表现为ID。
所以,作者提出了基于attention的异常检测方法。本质是使用 V V V中每个region和 Q Q Q中每个word的加权attention计算score。为了防止attention对异常过于strong,作者添加了正则项,显式地finetune模型。
实验
提升了模型的鲁棒性,但降低了精度。
对于OOD问题(TASK1~TASK3),检测能力具有大幅提升。
对于TASK4:
对于TASK5: