AutoML论文笔记(八)Deep Multimodal Neural Architecture Search:多模态神经网络搜索

文章题目:Deep Multimodal Neural Architecture Search
链接:link https://arxiv.org/abs/2004.12070
会议期刊:ICCV 2020

论文阅读笔记,帮助记忆的同时,方便和大家讨论。因能力有限,可能有些地方理解的不到位,如有谬误,请及时指正。

论文内容

多模态学习包括问答系统、图文匹配和文字描述。传统的技术途径要么是固定网络学习,要么是在不同领域搜索各自的网络结构,互补干涉。本文构建了一个通用的框架MMnas,囊括以上三大领域,自适应的搜索网络结构。

之前的多模态最好的方式,是基于BERT,MMnas相比于BERT不需要那么大的数据,更加高效,并且是稳定的统一框架。虽然问答系统,图文匹配和语义描述,他们的输入都是图片或者句子,但是其各自的算法都是定制的。而BERT所需要的巨大算力,阻碍了其在实际场景中的应用。
 因此本文在MFAS(Multimodal Fusion Architecture Search)的基础上,构建了统一的encoder-decoder框架,并为每一个任务定制head预处理:self-attention (SA), guided-attention (GA), feed-forward network (FFN), and relation self-attention (RSA) 。
 在这里插入图片描述
 每个句子和图片都经过了归一化和裁剪:句子用预训练的GloVe裁剪到300维的向量,其相互关系用m个block表示;图片通过预训练的Fast R-CNN提取n个特征。为了提高搜索效率,该系统的NAS算法使用的是参数共享的one-shot超网机制。
 作者在训练的过程中发现:交替训练网络结构和参数会引起搜索过程的偏差,掉入到局部最优解中。因此作者提出了NAS的warmup,在该阶段不训练网络结构,而是先对ops均匀采样,训练模型参数。这样就能确保模型在组合时,能被很好的初始化,保证了搜索的公平性。
 算法框架图如下:
  
  并且为了比较各个head的作用,作者做了详细的消融学习。最终发现SA对结果影响最大,其原因可是self-attention能知道特征的空间关系,将模型的性能往前推。并且作者发现,SA和RSA是互补的。
  其算法在VQA、VG和ITM任务中都表现优异。
  在这里插入图片描述

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值