粗读CVPR2019 论文 Transfer Learning via Unsupervised Task Discovery for Visual Question Answering

最新推荐文章于 2023-02-11 11:31:06 发布

mobai-ch

最新推荐文章于 2023-02-11 11:31:06 发布

阅读量382

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_31622541/article/details/104221471

版权

机器学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

声明：本文为个人观点，如有不同意见，希望评论区指出，共同进步。

文章解决的问题

现有的大批量的视觉数据集，标签，区域选择边框为在图像中学习丰富的可表达信息提供了一定的基础。但是，如何将视觉概念给抽取出来并且传给一个视觉相关问题，并由一个问题回答模型给出这个问题的答案依然是当前要解决的一个点。我们称这类问题的总称叫做visual question answering (VQA)。

文章中的做法

作者解决问题的思路主要可以分为两步走。

学习一个无监督的视觉分类器(使用了预训练的知识)。
将视觉分类器分类的结果传给问题回答模型进行近一步的判断(中间使用了树的层级结构)。

我们首先通过作者文章里的一张关键的图来分析下作者在文章中描述的任务

我们可以看到，这张图很好的描述了这个任务，给出一张图片，问一个问题，给出问题的答案。然后B是预训练数据集，而B中有的类A-B中都没有，所以也就不存在监督学习这一说法了，这样一来，作者就直接通过attention机制来进行视觉特征的抽取，然后再将问题进行编码，最终就实现了这个任务，而并不需要将测试集中的类再给训练一遍。

接下来的这张图则是讲的更加的细节了，我们可以大概的看到pretraining的细节，作者通过attention机制求出一组视觉特征，然后把问题进行编码，最后通过极大似然估计使得产生真实数据的概率最大化，加上对数变交叉熵，最小化后这个值的相反数或者倒数就可以求出参数了，这时候问题就都集中在问题的编码那一块了。

接下来两张图就解释了怎么进行问题编码了，我们可以看到最终我们要填的词以一种树形结构进行了编码，这样一来，就能在编码中嵌入这个词属于一层层下来的哪一个类，借此，就能通过图像和词共同作用来求中间填入的词汇的概率了。

文章关键词：VQA 无监督树形结构编码视觉信息迁移

文章摘要：

We study how to leverage off-the-shelf visual and lin guistic data to cope with out-of-vocabulary answers in visual question answering task. Existing large-scale vi sual datasets with annotations such as image class labels, bounding boxes and region descriptions are good sources for learning rich and diverse visual concepts. However, it is not straightforward how the visual concepts can be cap tured and transferred to visual question answering models due to missing link between question dependent answering models and visual data without question. We tackle this problem in two steps: 1) learning a task conditional vi sual classififier, which is capable of solving diverse question specifific visual recognition tasks, based on unsupervised task discovery and 2) transferring the task conditional vi sual classififier to visual question answering models. Specif ically, we employ linguistic knowledge sources such as structured lexical database (e.g. WordNet) and visual de scriptions for unsupervised task discovery, and transfer a learned task conditional visual classififier as an answering unit in a visual question answering model. We empirically show that the proposed algorithm generalizes to out-of vocabulary answers successfully using the knowledge trans ferred from the visual dataset.

文章链接：https://arxiv.org/pdf/1810.02358.pdf

文章作者：

Hyeonwoo Noh 1,3 Taehoon Kim 2∗ Jonghwan Mun 1,3 Bohyung Han 3

1 Computer Vision Lab. 2 OpenAI 3 Computer Vision Lab., ECE & ASRI POSTECH, Korea USA Seoul National University, Korea

1 {shgusdngogo,jonghwan.mun } @postech.ac.kr 2 carpedm20@gmail.com 3 bhhan@snu.ac.kr

mobai-ch

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
粗读CVPR2019 论文 Transfer Learning via Unsupervised Task Discovery for Visual Question Answering

声明：本文为个人观点，如有不同意见，希望评论区指出，共同进步。文章解决的问题现有的大批量的视觉数据集，标签，区域选择边框为在图像中学习丰富的可表达信息提供了一定的基础。但是，如何将视觉概念给抽取出来并且传给一个视觉相关问题，并由一个问题回答模型给出这个问题的答案依然是当前要解决的一个点。我们称这类问题的总称叫做visual question answering (VQA)。文章中的做法...
复制链接

扫一扫