多模态融合(三)MFAS: Multimodal Fusion Architecture Search

摘要

本篇文章以多模态分类任务为契机,提出了一个新颖和通用的搜索空间,来找寻最优的多模态融合架构。为了在给定的搜索空间中为给定数据集找到最优的架构,本文使用了一种针对具体问题并基于序列模型的高效搜索方法。在一个toy dataset和另外两个真实的多模态数据集上的实验结果证明了将多模态融合作为神经结构搜索问题的价值

引言

作者指出,通常多模态特征的融合是在最深层,也就是在文献中称为后期融合(late fusion),这在一些多模态任务[40]上取得一定的成功。然而,在各自最深层的特征上融合模态不一定是解决给定多模态问题的最佳方法。因此,本文是要在多模态分类任务中,找寻一种最优的多模态特征融合方式,从而更好地利用深度学习模型中嵌入在不同层次的信息进行分类。
手工评估所有的可能性(从不同模态的不同中间层选择特征进行融合)会非常困难,或者根本就难以解决。的确,模态越多、层次越深,可选择模态融合方式就越复杂。当启用嵌套的多模态特性组合时更是如此,它实际上是一个庞大的组合问题。

方法

通用的双模态特征融合网络
在这里插入图片描述
先说明多模态融合搜索空间中的算子:
γ l m ∈ { 1 , . . , M } \gamma_l^m \in \{1,..,M\} γlm{ 1,..,M}
γ l n ∈ { 1 , . . , N } \gamma_l^n \in \{1,..,N\} γln{ 1,..,N}

  • 5
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值