【VQA】Deep Multimodal Neural Architecture Search

本文提出了一种名为Mmnas的深度多模态神经架构搜索框架,该框架基于MCAN并引入NAS,以解决不同多模态任务。通过在多个数据集上验证,该框架在VQA等任务上达到了SOTA效果。关键创新包括RSA模块(考虑物体间位置关系)和NSA搜索算法。实验表明,RSA模块提升了VQA任务中的计数能力,而引入FFN模块虽有小幅度提升但会增加模型参数。
摘要由CSDN通过智能技术生成

动机:目前的深度神经网络大多是针对特定的任务手工设计特定的网络结构。本文提出一个多模态的NAS框架,应用不同的任务头来解决不同的多模态问题。
NAS:Neural architecture search
创新:1.引入NAS,设计了一个针对不同多模态任务的框架模型。Mmnas
2.在不同任务多个数据集上验证效果,达到sota。
代码:https://github.com/MILVLG/mmnas[]

本文的工作是基于MCAN改进的,引入了NAS算法,设计了一个多模态不同任务通用的框架,在多个数据集上达到了Sota效果。对于不同的任务,框架的主要区别在于最后的任务头[分类器的设计和损失函数的使用]

框架图:[模型的框架是MCAN的编码器-解码器结构]
在这里插入图片描述

框架中的亮点:RSA模块和NSA搜索算法
1.RSA模块:在SA模块中引入了relation,其中relation指得是图像特征中不同物体之间的位置关系。即bounding boxes之间的位置关系。[文献来源:Relation networks for object detection–2018]

实验结论:
1.效果[略]
2.启发:1.引入relation后的RSA在VQA任务上可以提高计数能力
2.增加FFN模块会有小幅度效果提升,但是模型参数也会增加

可用参考文献:
神经网络搜索方面:
1.Neural architecture search with reinforcementlearning --2016
2.Proxylessnas: Direct neural
architecture search on target task and hardware.—2018
3.Fairnas: Rethinking
evaluation fairness of weight sharing neural architecture search. —2019
视觉关系方面:
1.Relation networks for object detection–2018

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值