粗读CVPR2019 论文 Transfer Learning via Unsupervised Task Discovery for Visual Question Answering

声明:本文为个人观点,如有不同意见,希望评论区指出,共同进步。

文章解决的问题

现有的大批量的视觉数据集,标签,区域选择边框为在图像中学习丰富的可表达信息提供了一定的基础。但是,如何将视觉概念给抽取出来并且传给一个视觉相关问题,并由一个问题回答模型给出这个问题的答案依然是当前要解决的一个点。我们称这类问题的总称叫做visual question answering (VQA)。

文章中的做法

作者解决问题的思路主要可以分为两步走。

  1. 学习一个无监督的视觉分类器(使用了预训练的知识)。
  2. 将视觉分类器分类的结果传给问题回答模型进行近一步的判断(中间使用了树的层级结构)。

我们首先通过作者文章里的一张关键的图来分析下作者在文章中描述的任务

我们可以看到,这张图很好的描述了这个任务,给出一张图片,问一个问题,给出问题的答案。然后B是预训练数据集,而B中有的类A-B中都没有,所以也就不存在监督学习这一说法了,这样一来,作者就直接通过attention机制来进行视觉特征的抽取,然后再将问题进行编码,最终就实现了这个任务,而并不需要将测试集中的类再给训练一遍。

接下来的这张图则是讲的更加的细节了,我们可以大概的看到pretraining的细节,作者通过attention机制求出一组视觉特征,然后把问题进行编码,最后通过极大似然估计使得产生真实数据的概率最大化,加上对数变交叉熵,最小化后这个值的相反数或者倒数就可以求出参数了,这时候问题就都集中在问题的编码那一块了。

接下来两张图就解释了怎么进行问题编码了,我们可以看到最终我们要填的词以一种树形结构进行了编码,这样一来,就能在编码中嵌入这个词属于一层层下来的哪一个类,借此,就能通过图像和词共同作用来求中间填入的词汇的概率了。

文章关键词:VQA 无监督 树形结构编码 视觉信息迁移

文章摘要:

    We study how to leverage off-the-shelf visual and lin guistic data to cope with out-of-vocabulary answers in visual question answering task. Existing large-scale vi sual datasets with annotations such as image class labels, bounding boxes and region descriptions are good sources for learning rich and diverse visual concepts. However, it is not straightforward how the visual concepts can be cap tured and transferred to visual question answering models due to missing link between question dependent answering models and visual data without question. We tackle this problem in two steps: 1) learning a task conditional vi sual classififier, which is capable of solving diverse question specifific visual recognition tasks, based on unsupervised task discovery and 2) transferring the task conditional vi sual classififier to visual question answering models. Specif ically, we employ linguistic knowledge sources such as structured lexical database (e.g. WordNet) and visual de scriptions for unsupervised task discovery, and transfer a learned task conditional visual classififier as an answering unit in a visual question answering model. We empirically  show that the proposed algorithm generalizes to out-of vocabulary answers successfully using the knowledge trans ferred from the visual dataset.

 

文章链接:https://arxiv.org/pdf/1810.02358.pdf

文章作者:

Hyeonwoo Noh 1,3 Taehoon Kim 2∗  Jonghwan Mun 1,3 Bohyung Han 3

1 Computer Vision Lab. 2 OpenAI 3 Computer Vision Lab., ECE & ASRI  POSTECH, Korea USA Seoul National University, Korea

1 {shgusdngogo,jonghwan.mun } @postech.ac.kr  2 carpedm20@gmail.com 3 bhhan@snu.ac.kr
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值