AutoML论文笔记（八）Deep Multimodal Neural Architecture Search：多模态神经网络搜索

最新推荐文章于 2025-04-02 15:11:47 发布

霸王龙Alvin

最新推荐文章于 2025-04-02 15:11:47 发布

阅读量2.2k

点赞数 1

分类专栏： AutoML论文笔记文章标签：深度学习算法机器学习人工智能神经网络

本文链接：https://blog.csdn.net/luzheai6913/article/details/106202229

版权

AutoML论文笔记专栏收录该内容

17 篇文章

订阅专栏

文章题目：Deep Multimodal Neural Architecture Search

链接：link https://arxiv.org/abs/2004.12070

会议期刊：ICCV 2020

论文阅读笔记，帮助记忆的同时，方便和大家讨论。因能力有限，可能有些地方理解的不到位，如有谬误，请及时指正。

论文内容

多模态学习包括问答系统、图文匹配和文字描述。传统的技术途径要么是固定网络学习，要么是在不同领域搜索各自的网络结构，互补干涉。本文构建了一个通用的框架MMnas，囊括以上三大领域，自适应的搜索网络结构。

之前的多模态最好的方式，是基于BERT，MMnas相比于BERT不需要那么大的数据，更加高效，并且是稳定的统一框架。虽然问答系统，图文匹配和语义描述，他们的输入都是图片或者句子，但是其各自的算法都是定制的。而BERT所需要的巨大算力，阻碍了其在实际场景中的应用。
　因此本文在MFAS(Multimodal Fusion Architecture Search)的基础上，构建了统一的encoder-decoder框架，并为每一个任务定制head预处理：self-attention (SA), guided-attention (GA), feed-forward network (FFN), and relation self-attention (RSA) 。
　在这里插入图片描述
　每个句子和图片都经过了归一化和裁剪：句子用预训练的GloVe裁剪到300维的向量，其相互关系用m个block表示；图片通过预训练的Fast R-CNN提取n个特征。为了提高搜索效率，该系统的NAS算法使用的是参数共享的one-shot超网机制。
　作者在训练的过程中发现：交替训练网络结构和参数会引起搜索过程的偏差，掉入到局部最优解中。因此作者提出了NAS的warmup，在该阶段不训练网络结构，而是先对ops均匀采样，训练模型参数。这样就能确保模型在组合时，能被很好的初始化，保证了搜索的公平性。
　算法框架图如下：
　　
　　并且为了比较各个head的作用，作者做了详细的消融学习。最终发现SA对结果影响最大，其原因可是self-attention能知道特征的空间关系，将模型的性能往前推。并且作者发现，SA和RSA是互补的。
　　其算法在VQA、VG和ITM任务中都表现优异。
　　在这里插入图片描述