音/视频多模态融合分类方式——梯度融合法(Gradient-Blending)

一 多模态融合方法有哪些?

(1)前端融合:将多个独立的数据集融合成一个单一的特征向量,然后输入到机器学习分类器中。由于多模态数据的前端融合往往无法充分利用多个模态数据间的互补性,且前端融合的原始数据通常包含大量的冗余信息。因此,多模态前端融合方法常常与特征提取方法相结合以剔除冗余信息,如主成分分析(PCA)、最大相关最小冗余算法(mRMR)、自动解码器(Autoencoders)等。
(2)后端融合:是将不同模态数据分别训练好的分类器输出打分(决策)进行融合。这样做的好处是,融合模型的错误来自不同的分类器,而来自不同分类器的错误往往互不相关、互不影响,不会造成错误的进一步累加。常见的后端融合方式包括最大值融合(max-fusion)、平均值融合(averaged-fusion)、 贝叶斯规则融合(Bayes’rule based)以及集成学习(ensemble learning)等
(3)中间融合:是指将不同的模态数据先转化为高维特征表达,再于模型的中间层进行融合。以神经网络为例,中间融合首先利用神经网络将原始数据转化成高维 特征表达,然后获取不同模态数据在高维空间上的共性。中间融合方法的一大优势是可以灵活的选择融合的位置。

二 多模态融合弊端现状

研究主题:通过视频、音频等多模态融合,提高单模态来分类的准确度
传统融合方法:后端融合
在这里插入图片描述
RGB :video clips
OF:Optical Flow
A :Audio
由图可见,基于后端的多模态融合,很容易过拟合,导致准确率下降。

三 多模态性能不好的原因

(1)多模式网络由于其容量的增加往往容易过度拟合
(2)不同的模态有不同的过拟合和不同速率的泛化能力

四 尝试优化的方法

对于后端融合优化方法:
在这里插入图片描述
避免过度训练的各种方法(橙色:pre-train、early-stop和dropout)都不能解决问题。不同的融合架构(红色:mid-concat、SE-gate和NL-gate)也无济于事。dropout和mid-concat融合方法提供了小的改进(+0.3%和+0.2%),而其他方法降低了精度。

五 梯度融合法(Gradient-Blending)——中间融合

在这里插入图片描述
a)单模型训练
b)后端融合
c)中间融合:通过监督信号的加权混合,对两种模式进行联合训练
下面考虑从中间融合的方式:

在这里插入图片描述

1.定义衡量模型性能的指标

指标定义:过拟合程度与泛化能力的比值在这里插入图片描述
通过缩小改制值得来提高模型性能

2.梯度更新公式

在这里插入图片描述
(1)分子代表:(Train的Loss的梯度-Validation的Loss的梯度)与(加权的Validation的Loss预测的梯度)的角度
(2)分母代表:(Validation的Loss的梯度)与(加权的Validation的Loss预测的梯度)的角度

3.深度框架

在这里插入图片描述

4.使用梯度融合法的各种模态融合结果

在这里插入图片描述

本博客参考文献:
【1】What Makes Training Multi-Modal Classification Networks Hard?
【2】多模态的几种融合方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

凌青羽

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值