In Factuality: Efficient Integration of Relevant Facts for Visual Question Answering 论文笔记

写在前面
  最近看了几篇论文,不是太想写博客,原因是有的论文写的真是晦涩难懂,各种高级语法措辞真是令人头疼。今天读的这一篇论文语法还能接受,但就我看来也是属于那种食之无味弃之可惜的“鸡肋”文章。这篇文章最主要的在于其结论:UNITER 网络在 KVQA 数据集上不会关注图像特征,也就是说你在网络中使用了图像特征和没使用图像特征的效果一样。
论文链接:In Factuality: Efficient Integration of Relevant Facts for Visual Question Answering
代码链接:未开源
收录于 ACL2021

一、Abstract

  当前的VQA模型对学习复杂的知识表示可能力不从心,因此本文通过整合外部知识库中提取到的事实来增强多模态预训练模型的推理能力。数据集采用 KVQA,效果很牛皮,同时用消融实验验证了模型的受限制点。

二、引言

  最近有一些研究在关注 组合式推理 or 整合外部知识推理 的 VQA 任务,本文聚焦于解决知识感知的 VQA,即在没有使用知识库的情况下,模型不可能回答出测试集中的问题。接下来引出 BERT 模型提高了 CommonsenseQA 的精度,同时 BERT 模型还能存储大量的外部知识。Next 大规模的预训练了,然后借此提出本文的方法:应用大规模预训练的 V + L 模型到 KVQA 数据集上。
  该方法能够学习一系列的推理类型,整合外部的实际知识,实现更加的效果。同时作者在本文中衡量了数据集 bias 对某种问题类型的影响程度,并且提出了将来建构出更平衡数据集的建议。
  本文贡献如下:
1、将事实整合到 VL Bert 中,性能提高了 19.1%;
2、通过消融实验来评估模型的推理能力,对某种问题类型的性能表现不佳作出了解释,同时突出了模型对于文本和事实的关注度大过图像模态的关注度(也就是重点关注于文本和事实);
3、在KVQA数据集上进行 bias 研究,揭示了优点和潜在的提升。

三、相关工作

  简述一下VQA的类型,常识推理、组合式推理与建模、事实推理、外部知识推理。然后从外部知识推理讲起,描述一下之前的解决方法以及两个数据集 KB-VQA、FVQA。最近的工作是引入视觉信息来建立 Vision+Language BERT 模型:首先将图像和文本嵌入到同一空间中,然后采用标准的 BERT 模型来进行下一步处理。
  作者的工作与下面这篇参考文献类似,但是并未采用其中的 memory network,而是采用了基于 BERT 的 UNITER 模型,利用 self-attention 来建模问题-事实-图像之间的联系(这就是鸡肋的地方:换汤不换药)。

Sanket Shah, Anand Mishra, Naganand Yadati, and Partha Pratim Talukdar. 2019. KVQA: Knowledge-
Aware Visual Question Answering. Proceedings of the AAAI Conference on Artificial Intelligence,
33(01):8876–8884.

Yen Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, and
Jingjing Liu. 2020. UNITER: UNiversal Image-TExt Representation Learning. Lecture Notes
in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in
Bioinformatics), 12375 LNCS:104–120.

四、方法

(温馨提示:作者原文也就是下面一段实属写的混乱)
  采用UNITER在VCR数据集上的最高得分模型作为本文解决 KVQA 的模型。首先将事实变成文本化的格式:Entity1 Relation Entity2,之后为了让输入的文本事实空间尽量小,在KG(知识图谱)上进行条件搜索。最终KVQA的目标可以归纳为:
a ∗ = argmax ⁡ a ∈ A   p ( a ∣ q , i , K ) ≈ argmax ⁡ a ∈ A   p ( a ∣ q , i , k i , q ) a^{*}=\underset{a \in A}{\operatorname{argmax}}~p(a \mid q, i, K) \approx \underset{a \in A}{\operatorname{argmax}}~p\left(a \mid q, i, k_{i, q}\right) a=aAargmax p(aq,i,K)aAargmax p(aq,i,ki,q)
其中, a ∗ a^* a 为候选答案集合 A A A 中的正确答案, q , i , K q,i,K q,i,K 分别为答案、图像、知识库。正如前面所叙述的,需要通过条件搜索来找到最相关的事实子集合 k i , q k_{i,q} ki,q
  为了定义该子集合 k i , q k_{i,q} ki,q,通过文本实体联系或者人脸检测从知识库中采用至多两跳的方式提取所有的事实。模型结构图如下:
在这里插入图片描述
  该模型由两部分组成:预处理:进行相关事实提取;推理:从问题、事实、图像特征中推理答案。

4.1 Preprocessing Stage

  对于图像,采用Faster R-CNN提取目标特征,concate 7 维度的位置特征向量(文中并未说明哪些维度)。对于人物检测,采用 MTCNN 和 Facenet(都是比较老的算法了),预训练在 MS-celeb-1M 数据集上,来产生 128 维度的 embedding 向量。对于人名的预测,将其视为多标签分类任务,在 KVQA 参考数据集中采用最近邻算法来预测,达到了 Micro-F1 0.539 的精度。相对来说效果较差,因此又应用了补充的图像像描述中文本化联系来强化其性能,最终达到了 0.686 的精度。
  成品效果类似为:Barack Obama at 42 78,人名-目标在图像里的中心位置,人名是由实体鉴别器在 Wikidata graph 上进行两跳查询得到的。最终提取出的事实级联成 subject relation object 的格式

4.2 Reasoning Stage

  推理采用的是 UNITER,预训练在 MS COCO、Visual Genome、Conceptual Captions SBU Captions数据集上,预训练任务包含 MLM(Masked Language Modeling)、ITM(Image-Text Matching)、MRM(Masked Region Modeling)。

五、实验步骤

  数据集:KVQA;原因:最大的外部知识数据集,问题和推理类型都有标注。评估指标:整合数据集和每种问题类型的精确度。Baseline: 精度 48% 的 stacked BLSTM,精度 50.2% 的 MemNet。
  本文采用的模型,UNITER_BASE 自定义的分类层(MLP+softmax输出层)。每个模态间用 [SEP] 分隔开,接下来就是 bert 里面的 attention layer 了。文本流采用 bert-base-uncased tokeniser,最大长度 41,每张图片中的最大目标数量 100, l r = 8 × 1 0 − 1 lr=8\times10^{-1} lr=8×101,AdamW 优化器,cross-entropy 损失函数,迭代次数 80000。

六、结果

在这里插入图片描述
(损失值都放进去了,确实拉胯,😅),主要关注一下 “Subtraction” & “Spatial” 的结果,性能都比较低,原因:类似bert模型需要特定的为数字推理而产生的预训练,而本文正是没有进行这种预训练。这个结果也就表明了 BERT 模型存在的问题之一了——缺乏数字推理能力。

七、分析

  多跳类型的推理能力超过单跳性能,原因可能是数据集的答案类型分布不均导致的。接下来对模型的单模态推理能力进行实验:
在这里插入图片描述
  如上图 colunmn ‘Q+F’ 所示:在没有图像特征参与的情况下,模型性能并未改变,说明模型并未关注于图像特征,原因在于模型更依赖于显式事实,而不是更模糊的视觉特征。另外一点是 ‘Spatial’ 类型的问题,只有 ‘F’ 事实提供的情况下就能达到 13% 的精度,原因可能是事实中出现了实体答案,这也从另一方面证实模型不能从视觉特征获得信息。

7.1 Bias Studies

  本文认为 KVQA 任务的困难度主要由三个因素组成:推理难度、特定的任务、数据集bias。(扯了一堆废话)

7.2 Training time ablation and adversarial experiments

在这里插入图片描述
  实验表明了模型利用提供的模态来补偿缺失的模态,尤其是事实数据(废话)

八、Conclusion and Future Work

  最有用的一句话:UNITER 模型在 KVQA 数据集上未能真正的利用视觉输入。(其他全是废话)

总结

  这篇文章大部分在打流水账,有灌水的嫌疑。鸡肋鸡肋,食之无味弃之可惜!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

乄洛尘

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值