以下内容全是学习自一位学长的读书笔记!!!!
视觉蕴涵
首先理解一下文本蕴涵关系:也就是两个文本之间的推理关系,一个文本作为前提,一个文本作为假设,如果能根据前提推理出假设的话,那就说明前提蕴涵假设,前提->假设
再次就开始熟悉,视觉蕴涵:知识是来自 Visual Entailment Task for Visually-Groundwd Language Learning 这篇论文。提出了全新的一个数据集合一个可解释性视觉蕴涵模型。视觉蕴涵的话,也就是把前提改成了图片,而不是之前的文字,由图片来推出假设是否成立。
当然这些数据集合对应的EVE结构,我也就是看看,基本上看不懂。。
这个视觉基本上在现实生活中有:1.假新闻检测 2.法庭质证的应用
假新闻检测:
也就是检测新闻中的图片和新闻内容是不是一致的(前提是图片,假设就是文字了)
法庭质证
也就是判断证物和证词是否矛盾,做出公正的判决
而视觉蕴涵的研究方向就是:建立标准的测评数据集,在模型特征方向的研究还有在特征之间的组合以及预测目标的变化等方向。
当然数据集也是多种多样的:
在这里,学长也是给了一些论文(VQA方面的)的汇总,都是宝贵的财富呢。
然后挑选了其中的一篇:
Ask Your Neurons: A Neural-based Approach to Answering Questions about Images
这篇论文的主要思想就是在于:一CNN和LSTM作为基础,用一个新的方式,设计了一个预测结果长度可变的墨香,这个模型将视觉问答任务作为结合了图像信息辅助的任务(不懂。。)
具体说一下这个模型:主要就是用一个预训练好的深度CNN模型抽取需要回答的图片特征,然后再把特征和转换为词向量的问题词一起送到网络中,每次送入问题次的时候同时将图片特征送入网络,直到问题特征信息都被抽取完毕。
(基本上看不懂)
论文的贡献在于:
他提出了seq2seq的方式,长生变长的答案,并且提出了两个新的评估指标。
第二篇论文是:
A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input
中文翻译过来就是:基于不确定输入的真实场景的多场景问答方法
他的贡献在于:提出了一种结合真实场景自动语义分割和贝叶斯框架中的问题符号推导相结合的自动问答方法,也引入了一些新数据集,最后就是提出了线代视觉方面的图灵测试任务。
第三篇是
where to look:focus regions for Visual Question Ansering
这个论文主要是在于学习语言和视觉区域的非线性映射将特征纳入到共同的潜在空间以确定相关性。
他的模型就是;需要提取问题特征和图像特征,然后利用这两个特征来产生输出,有如下模型图:
模型主要是:
1.先经过区域选择,对问题进行embedding操作
2.再用问题embedding对图像区域计算注意力权重
3.融合问题特种和图像特征
4.预测输出
图像先经过区域选择,再进行embedding操作。
也就是对图像产生N个候选框,再通过交并比过滤产生最终结果。
1.采用Stanford Parser 解析问题,把问题分成四个部分,每个部分都采用word2vec词向量的平均值作为表示,再把四个地方拼接起来作文本表示。
2.第一个部分,前面两个单词。
3.第二个部分就是主语部分
4.第三个部分就是其他的名词部分
5.第四个部分就是其他所有单词,除了限定词
其他过程就是,嵌入的语言通过区域选择层以与视觉特征组合。并且他的损失函数采用的是最大间隔损失函数。