【视觉对话】DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue

薄荷奶绿Yena

已于 2023-07-12 20:25:44 修改

阅读量91

点赞数

分类专栏：视觉对话文章标签：计算机视觉自然语言处理 transformer 神经网络深度学习

于 2023-07-11 22:30:00 首次发布

本文链接：https://blog.csdn.net/nbwjszd/article/details/131665616

版权

原文标题：DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue
原文链接：https://arxiv.org/abs/1911.07251
原文代码：https://github.com/JXZe/DualVD
发布年度：2019年
发布期刊：AAAI2020

背景

视觉对话根据挑战性，因为它需要自适应地根据当前问题关注的不同视觉内容，而其他视觉语言问题大多关注某些特定的对象或区域。目前大多数的模型中使用CNN或R-CNN提取整体视觉特征，然后关注与问题相关的内容。但是一方面，视觉对话中的问题涉及广泛的视觉内容，包括对象、关系和高级语义，这些内容不能被整体特征所覆盖。另一方面，所引用的视觉内容可能会通过对话从视觉外观显著地转向高级语义，这是整体特征难以捕获的。

认知学中双向编码理论认为人类大脑编码信息包括两种方式，即视觉表象和关联文本。

作者受该理论启发，首先提出了一种从视觉和语义两方面刻画图像信息的新框架：视觉模块刻画图像中的主体目标和目标间的视觉关系，语义模块刻画图像中抽象的局部和全局高层语义信息。基于上述框架，作者提出了一种自适应视觉信息选择模型DualVD (Dual Encoding Visual Dialogue)：（1）模态内信息选择：由问题驱动，分别在视觉模块和语义模块中获得独立线索；（2）模态间信息选择：由问题驱动，获得视觉-语义的联合线索。<

最低0.47元/天解锁文章

薄荷奶绿Yena

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【视觉对话】DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue

本文受认知科学中的双编码理论的启发，提出了一种新的视觉对话的DualVD模型。DualVD主要由视觉模块和语义模块组成，它们分别在外观级和语义级对图像信息进行编码。通过门机制从两个模块中自适应地选择所需的答案推理线索。在基准测试上进行的大量实验的结果表明，与其他最先进的方法相比，从视觉-语义表示中获取视觉信息可以获得更好的性能。DualVD的另一个主要优点是它可以通过渐进式可视化进行解释。它可以让我们了解如何使用来自不同模式的信息来推断答案。
复制链接

扫一扫

专栏目录