2.3. Fusion Schemes
Fusion, particularly to leverage complementary multimodal information is an important stage in video-based emotion recognition systems. In our experiments, we experimented with decision (late) and model-based fusion strategies. In the latter, the features from audio and video models are concatenated and fed to attention mechanisms (selfattention and cross-attention).
For late fusion, we experimented with two schemes. First, we used Dirichlet-based Random Weighted Fusion (DWF), where fusion matrices containing weights per model-class combination are randomly sampled from the Dirichlet distribution. A large pool of such matrices is generated and the matrix that gives the best performance in terms of the task-wise challenge measure is selected for the test set submission. This approach is shown to generalize well to in-the-wild emotion recognition in former studies [10, 16].
The second decision fusion approach is based on Random Forests (RF) [3], where the concatenated probability vectors from the base models are stacked to RF. To avoid over-fitting, out-of-bag predictions are probed to optimize the number of trees
在情绪识别系统中,融合(Fusion) 阶段至关重要,特别是为了利用音频和视频等多模态信息的互补性,以下是该实验中的两种主要融合策略:
1. 模型融合(Model-based Fusion)
在模型融合策略中,将来自音频和视频模型的特征连接在一起,输入到注意力机制中。注意力机制包括自注意力(self-attention)和交叉注意力(cross-attention):
- 自注意力:主要是帮助模型理解音频或视频特征内部的关联。
- 交叉注意力:用于捕捉音频和视频特征之间的交互信息。
这种融合方式可以让模型充分利用多模态信息,从而提升情绪识别的准确性。
2. 决策融合(Decision Fusion)
决策融合(也叫晚期融合)是在每个单独的模型完成其预测后,再将各个模型的输出结果进行融合。这里实验了两种具体的决策融合方案:
(1) Dirichlet-based Random Weighted Fusion (DWF)
- DWF 方法通过Dirichlet 分布随机生成一个权重矩阵,每个矩阵包含不同模型-类别组合的权重。
- 实验会生成一个权重矩阵的池子,然后选择在训练集上表现最佳的权重矩阵用于测试集的预测提交。
- 这种方法在先前研究中已被证明能够很好地适应真实场景中的情绪识别任务。
(2) 基于随机森林(Random Forests, RF)的决策融合
- 在此方案中,将不同模型的概率输出向量连接起来,并将其输入到随机森林(RF)中进行最终预测。
- 为了避免模型过拟合,使用袋外预测(out-of-bag predictions) 方法来优化随机森林的树数量,从而控制模型复杂度,提升泛化能力。
总结
这两种融合策略分别是:
- 模型融合:直接合并多模态特征,应用注意力机制以充分利用音视频特征的互补性。
- 决策融合:结合多个模型的最终预测结果,通过 DWF 或随机森林方法进行决策,从而提升整体性能。
这些融合方法可以提高情绪识别的鲁棒性和准确性。