《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记

本文介绍了将视觉问题生成(VQG)作为视觉问答(VQA)的辅助任务,提出可逆问答网络(iQAN)模型。iQAN通过共享参数和双正则化器在VQA和VQG中同时训练,提高了对图像、问题和答案的理解。实验显示,iQAN在VQA2和CLEVR数据集上表现优于MUTAN等方法。
摘要由CSDN通过智能技术生成

《Visual Question Generation as Dual Task of Visual Question Answering》阅读笔记

一、研究背景

视觉问答(VQA)和视觉问题生成(VQG)是计算机视觉中的两个主题,但它们通常是分开探索的,尽管它们具有内在的互补关系。 在本文中,提出了一个端到端的统一模型,即可逆问答网络(iQAN),将问题生成作为问题回答的双重任务来引入,以提高VQA性能。 通过我们提出的可逆双线性融合模块和参数共享方案,我们的iQAN可以同时完成VQA及其双任务VQG。 通过与我们提出的双正则化器(称为双重训练)共同训练两项任务,我们的模型可以更好地理解图像,问题和答案之间的相互作用。

二、文章贡献

在这项工作中,将VQG和VQA视为双重任务,提出了一种新颖的训练框架,以引入VQG作为提高VQA模型性能的辅助任务。 相应地,得出一个统一的模型,可以完成不同形式的VQA和VQG,称为可逆问答网络(iQAN)。 该模型与VQA和VQG任务共同训练,可以部署在测试阶段的任务中。 此外,提出了一种新颖的参数共享方案和二元正则化,以明确地利用两个任务之间的内在联系。 通过对VQA2和CLEVR数据集的评估,我们提出的模型在VQA和VQG任务上都比MUTAN VQA方法获得更好的结果。 实验结果表明,我们的框架还可以推广到其他一些流行的VQA模型,并不断提高其性能。

三、实验模型

<

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值