原文标题:DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue
原文链接:https://arxiv.org/abs/1911.07251
原文代码:https://github.com/JXZe/DualVD
发布年度:2019年
发布期刊:AAAI2020
背景
视觉对话根据挑战性,因为它需要自适应地根据当前问题关注的不同视觉内容,而其他视觉语言问题大多关注某些特定的对象或区域。目前大多数的模型中使用CNN或R-CNN提取整体视觉特征,然后关注与问题相关的内容。但是一方面,视觉对话中的问题涉及广泛的视觉内容,包括对象、关系和高级语义,这些内容不能被整体特征所覆盖。另一方面,所引用的视觉内容可能会通过对话从视觉外观显著地转向高级语义,这是整体特征难以捕获的。
认知学中双向编码理论认为人类大脑编码信息包括两种方式,即视觉表象和关联文本。
作者受该理论启发,首先提出了一种从视觉和语义两方面刻画图像信息的新框架:视觉模块刻画图像中的主体目标和目标间的视觉关系,语义模块刻画图像中抽象的局部和全局高层语义信息。基于上述框架,作者提出了一种自适应视觉信息选择模型DualVD (Dual Encoding Visual Dialogue):(1)模态内信息选择:由问题驱动,分别在视觉模块和语义模块中获得独立线索;(2)模态间信息选择:由问题驱动,获得视觉-语义的联合线索。<