【VQA】Deep Multimodal Neural Architecture Search

今天也要学习！

已于 2022-04-19 21:23:15 修改

阅读量961

点赞数

分类专栏： VQA 文章标签： vqa

于 2022-04-19 21:19:45 首次发布

本文链接：https://blog.csdn.net/avast510/article/details/124283864

版权

本文提出了一种名为Mmnas的深度多模态神经架构搜索框架，该框架基于MCAN并引入NAS，以解决不同多模态任务。通过在多个数据集上验证，该框架在VQA等任务上达到了SOTA效果。关键创新包括RSA模块（考虑物体间位置关系）和NSA搜索算法。实验表明，RSA模块提升了VQA任务中的计数能力，而引入FFN模块虽有小幅度提升但会增加模型参数。

摘要由CSDN通过智能技术生成

动机：目前的深度神经网络大多是针对特定的任务手工设计特定的网络结构。本文提出一个多模态的NAS框架，应用不同的任务头来解决不同的多模态问题。
NAS:Neural architecture search
创新：1.引入NAS，设计了一个针对不同多模态任务的框架模型。Mmnas
2.在不同任务多个数据集上验证效果，达到sota。
代码：https://github.com/MILVLG/mmnas[]

本文的工作是基于MCAN改进的，引入了NAS算法，设计了一个多模态不同任务通用的框架，在多个数据集上达到了Sota效果。对于不同的任务，框架的主要区别在于最后的任务头[分类器的设计和损失函数的使用]

框架图：[模型的框架是MCAN的编码器-解码器结构]
在这里插入图片描述

框架中的亮点：RSA模块和NSA搜索算法
1.RSA模块：在SA模块中引入了relation，其中relation指得是图像特征中不同物体之间的位置关系。即bounding boxes之间的位置关系。[文献来源：Relation networks for object detection–2018]

实验结论：
1.效果[略]
2.启发：1.引入relation后的RSA在VQA任务上可以提高计数能力
2.增加FFN模块会有小幅度效果提升，但是模型参数也会增加

可用参考文献：
神经网络搜索方面：
1.Neural architecture search with reinforcementlearning --2016
2.Proxylessnas: Direct neural
architecture search on target task and hardware.—2018
3.Fairnas: Rethinking
evaluation fairness of weight sharing neural architecture search. —2019
视觉关系方面：
1.Relation networks for object detection–2018

今天也要学习！

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【VQA】Deep Multimodal Neural Architecture Search

动机：目前的深度神经网络大多是针对特定的任务手工设计特定的网络结构。本文提出一个多模态的NAS框架，应用不同的任务头来解决不同的多模态问题。NAS:Neural architecture search创新：1.引入NAS，设计了一个针对不同多模态任务的框架模型。Mmnas2.在不同任务多个数据集上验证效果，达到sota。代码：https://github.com/MILVLG/mmnas[]本文的工作是基于MCAN改进的，引入了NAS算法，设计了一个多模态不同任务通用的框架，在多个数据集上达到了S
复制链接

扫一扫

专栏目录