AAAI 2021 《Regularizing Attention Networks for Anomaly Detection in Visual Question Answering》论文笔记

简介

本文是POSTECH和Kakao合作的一篇文章。
论文链接

动机

异常检测有助于提升模型的稳定性和可靠性,也就是鲁棒性,OOD问题也可以视为一种异常。但是,单模态的异常检测(MSP)并不能轻易的使用到VQA这种多模态任务中。作者提出了一种基于attention的方法(MAP),可以对VQA中的五种异常进行检测。

方法

首先,作者将VQA任务中的异常情况分为五种,也就是五个TASK。

  • TASK1~TASK3
    这三个TASK很好理解,就是在输入的视觉信息 V V V和语言信息 Q Q Q中,至少有一类是来自于OOD的。
  • TASK4
    TASK4指的是: V V V Q Q Q不相关。即:难以建立两个模态之间的关联。
  • TASK5
    TASK5指的是:通过 V V V Q Q Q得到的 A A A是OOD的。即:答案 A A A是未定义的。

结合下面这几种异常示例,可以便于理解。

传统的单模态异常检测方法,使用 softmax \text{softmax} softmax判断模型输出的置信度,当置信度低于阈值时,则认为发生了异常。但是这种方法不适用于VQA任务,主要有两方面原因:① 置信度是基于 p ( a ∣ v , q ) p(a|v,q) p(av,q)计算的,对前四种TASK无法区分;② 进行多模态特征融合后,原本的OOD可能会消失,即: V V V Q Q Q的OOD在进行特征融合后表现为ID。

所以,作者提出了基于attention的异常检测方法。本质是使用 V V V中每个region和 Q Q Q中每个word的加权attention计算score。为了防止attention对异常过于strong,作者添加了正则项,显式地finetune模型。

实验

提升了模型的鲁棒性,但降低了精度。

对于OOD问题(TASK1~TASK3),检测能力具有大幅提升。

对于TASK4:

对于TASK5:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值