视觉对话
文章平均质量分 92
薄荷奶绿Yena
211研究生在读,研究方向为视觉问答、视觉对话、多模态对抗攻防。
展开
-
【对抗vqa】Attacking VQA Systems via Adversarial Background Noise
原文标题: Attacking VQA Systems via Adversarial Background Noise 原文代码: https://github.com/akshay107/vqa-adv-background 发布年度: 2020 发布期刊: IEEE TETCIAdversarial examples have been successfully generated for various image classification models. Recently, several m原创 2023-12-12 09:31:30 · 872 阅读 · 0 评论 -
【视觉问答】Visual Perturbation-aware Collaborative Learning for Overcoming the Language Prior Problem
Visual Perturbation-aware Collaborative Learning for Overcoming the Language Prior Problem原创 2023-12-08 20:49:57 · 938 阅读 · 0 评论 -
【视觉对话】DAM: Deliberation, Abandon and Memory Networks for Generating Detailed
本文提出了一种新的由推敲单元、放弃单元和存储单元组成的生成解码器。新型解码器采用复合解码模式,对响应级和词级的信息进行建模,以防止生成的响应中重复。DAM是一种通用的解码体系结构,它可以与现有的视觉对话编码器相结合,以提高其性能。通过结合DAM与LF、MN和DualVD编码器的结合实验,我们提出的DAM可以有效地提高现有模型的生成性能,并在流行的基准数据集上获得新的最新结果。原创 2023-07-12 20:13:36 · 50 阅读 · 1 评论 -
【视觉对话】DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue
本文受认知科学中的双编码理论的启发,提出了一种新的视觉对话的DualVD模型。DualVD主要由视觉模块和语义模块组成,它们分别在外观级和语义级对图像信息进行编码。通过门机制从两个模块中自适应地选择所需的答案推理线索。在基准测试上进行的大量实验的结果表明,与其他最先进的方法相比,从视觉-语义表示中获取视觉信息可以获得更好的性能。DualVD的另一个主要优点是它可以通过渐进式可视化进行解释。它可以让我们了解如何使用来自不同模式的信息来推断答案。原创 2023-07-11 22:30:00 · 81 阅读 · 0 评论