VALSE学习(五):看图说话-Visual Question Answering as Reading Comprehension

VALSE2019

一、Visual Question Answering as Reading Comprehension

简介:开发一种能够对图像提出智能的、面向目标的问题的方法被证明是一个难以理解的挑战。为此,文章提出了一种深度强化

学习框架基于三个新的中间奖励,即目标实现,进步和鼓励产生简洁问题的信息性,从而发现有价值的问题向总目标迈进的信

息。通过直接优化快速解决的问题。为了全面实现这一目标,避免了现有方法产生长串疯狂的倾向增加很少价值的查询。在演讲

的第二部分,解决了视觉问题的回答使用阅读理解。视觉问题的回答需要同时理解两者图像视觉内容与自然语言问题。如何对复

杂的交互进行建模在视觉模式和文本模式之间进行转换并非易事。相比之下,挣扎在多模式特征融合,提出用自然语言统一所有

输入信息进行转换将VQA转换成机器阅读理解问题。这是向大规模开发迈出一步大量的文本和自然语言处理技术来解决VQA问

题。智能问答系统:主要是根据图片和语音提示回答内容,利用语音理解或者文本和视觉信息检测进行回答。

例如:这只鸟是什么颜色?这张图片中哪种动物可以爬树?

1、视觉部分:visual

2、文本部分:text

如何在同一个域整合视觉信息和文本信息,并且利用额外信息进行理解。

前人经验:

1、多个方法特征融合

      向量链接、元素集求和

      压缩、低秩、低秩二进制池化

2、基于知识的问答系统

      文本分离

      启发式关键字匹配

前人经验方法:视觉理解部分+文本理解

视觉理解:预训练单标签-参数转移-微调多标签输出-属性预测

文本理解:基于LSTM的文本摘要,根据问题进行单个词分析理解,再根据句子组合理解。

前人经验:

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值