音/视频多模态融合分类方式——梯度融合法（Gradient-Blending）

本文链接：https://blog.csdn.net/qq_35759272/article/details/109657793

音/视频多模态融合分类方式——梯度融合法（Gradient-Blending）

一多模态融合方法有哪些？
二多模态融合弊端现状
三多模态性能不好的原因
四尝试优化的方法
五梯度融合法（Gradient-Blending）——中间融合

一多模态融合方法有哪些？

（1）前端融合：将多个独立的数据集融合成一个单一的特征向量，然后输入到机器学习分类器中。由于多模态数据的前端融合往往无法充分利用多个模态数据间的互补性，且前端融合的原始数据通常包含大量的冗余信息。因此，多模态前端融合方法常常与特征提取方法相结合以剔除冗余信息，如主成分分析（PCA）、最大相关最小冗余算法（mRMR）、自动解码器（Autoencoders）等。
（2）后端融合：是将不同模态数据分别训练好的分类器输出打分(决策)进行融合。这样做的好处是，融合模型的错误来自不同的分类器，而来自不同分类器的错误往往互不相关、互不影响，不会造成错误的进一步累加。常见的后端融合方式包括最大值融合(max-fusion)、平均值融合(averaged-fusion)、贝叶斯规则融合(Bayes’rule based)以及集成学习(ensemble learning)等
（3）中间融合：是指将不同的模态数据先转化为高维特征表达，再于模型的中间层进行融合。以神经网络为例，中间融合首先利用神经网络将原始数据转化成高维特征表达，然后获取不同模态数据在高维空间上的共性。中间融合方法的一大优势是可以灵活的选择融合的位置。

二多模态融合弊端现状

研究主题：通过视频、音频等多模态融合，提高单模态来分类的准确度
传统融合方法：后端融合
在这里插入图片描述
RGB ：video clips
OF：Optical Flow
A ：Audio
由图可见，基于后端的多模态融合，很容易过拟合，导致准确率下降。

三多模态性能不好的原因

(1)多模式网络由于其容量的增加往往容易过度拟合
(2)不同的模态有不同的过拟合和不同速率的泛化能力

四尝试优化的方法

对于后端融合优化方法：
在这里插入图片描述
避免过度训练的各种方法(橙色:pre-train、early-stop和dropout)都不能解决问题。不同的融合架构(红色:mid-concat、SE-gate和NL-gate)也无济于事。dropout和mid-concat融合方法提供了小的改进(+0.3%和+0.2%)，而其他方法降低了精度。