VALSE2019
一、Visual Question Answering as Reading Comprehension
简介:开发一种能够对图像提出智能的、面向目标的问题的方法被证明是一个难以理解的挑战。为此,文章提出了一种深度强化
学习框架基于三个新的中间奖励,即目标实现,进步和鼓励产生简洁问题的信息性,从而发现有价值的问题向总目标迈进的信
息。通过直接优化快速解决的问题。为了全面实现这一目标,避免了现有方法产生长串疯狂的倾向增加很少价值的查询。在演讲
的第二部分,解决了视觉问题的回答使用阅读理解。视觉问题的回答需要同时理解两者图像视觉内容与自然语言问题。如何对复
杂的交互进行建模在视觉模式和文本模式之间进行转换并非易事。相比之下,挣扎在多模式特征融合,提出用自然语言统一所有
输入信息进行转换将VQA转换成机器阅读理解问题。这是向大规模开发迈出一步大量的文本和自然语言处理技术来解决VQA问
题。智能问答系统:主要是根据图片和语音提示回答内容,利用语音理解或者文本和视觉信息检测进行回答。
例如:这只鸟是什么颜色?这张图片中哪种动物可以爬树?
1、视觉部分:visual
2、文本部分:text
如何在同一个域整合视觉信息和文本信息,并且利用额外信息进行理解。
前人经验:
1、多个方法特征融合
向量链接、元素集求和
压缩、低秩、低秩二进制池化
2、基于知识的问答系统
文本分离
启发式关键字匹配
前人经验方法:视觉理解部分+文本理解
视觉理解:预训练单标签-参数转移-微调多标签输出-属性预测
文本理解:基于LSTM的文本摘要,根据问题进行单个词分析理解,再根据句子组合理解。
前人经验: