【视觉对话】DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue

原文标题:DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue
原文链接:https://arxiv.org/abs/1911.07251

原文代码:https://github.com/JXZe/DualVD
发布年度:2019年
发布期刊:AAAI2020


背景

视觉对话根据挑战性,因为它需要自适应地根据当前问题关注的不同视觉内容,而其他视觉语言问题大多关注某些特定的对象或区域。目前大多数的模型中使用CNN或R-CNN提取整体视觉特征,然后关注与问题相关的内容。但是一方面,视觉对话中的问题涉及广泛的视觉内容,包括对象、关系和高级语义,这些内容不能被整体特征所覆盖。另一方面,所引用的视觉内容可能会通过对话从视觉外观显著地转向高级语义,这是整体特征难以捕获的。

认知学中双向编码理论认为人类大脑编码信息包括两种方式,即视觉表象和关联文本。

作者受该理论启发,首先提出了一种从视觉和语义两方面刻画图像信息的新框架:视觉模块刻画图像中的主体目标和目标间的视觉关系,语义模块刻画图像中抽象的局部和全局高层语义信息。基于上述框架,作者提出了一种自适应视觉信息选择模型DualVD (Dual Encoding Visual Dialogue):(1)模态内信息选择:由问题驱动,分别在视觉模块和语义模块中获得独立线索;(2)模态间信息选择:由问题驱动,获得视觉-语义的联合线索。<

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值