动机:目前的深度神经网络大多是针对特定的任务手工设计特定的网络结构。本文提出一个多模态的NAS框架,应用不同的任务头来解决不同的多模态问题。
NAS:Neural architecture search
创新:1.引入NAS,设计了一个针对不同多模态任务的框架模型。Mmnas
2.在不同任务多个数据集上验证效果,达到sota。
代码:https://github.com/MILVLG/mmnas[]
本文的工作是基于MCAN改进的,引入了NAS算法,设计了一个多模态不同任务通用的框架,在多个数据集上达到了Sota效果。对于不同的任务,框架的主要区别在于最后的任务头[分类器的设计和损失函数的使用]
框架图:[模型的框架是MCAN的编码器-解码器结构]
框架中的亮点:RSA模块和NSA搜索算法
1.RSA模块:在SA模块中引入了relation,其中relation指得是图像特征中不同物体之间的位置关系。即bounding boxes之间的位置关系。[文献来源:Relation networks for object detection–2018]
实验结论:
1.效果[略]
2.启发:1.引入relation后的RSA在VQA任务上可以提高计数能力
2.增加FFN模块会有小幅度效果提升,但是模型参数也会增加
可用参考文献:
神经网络搜索方面:
1.Neural architecture search with reinforcementlearning --2016
2.Proxylessnas: Direct neural
architecture search on target task and hardware.—2018
3.Fairnas: Rethinking
evaluation fairness of weight sharing neural architecture search. —2019
视觉关系方面:
1.Relation networks for object detection–2018