paper : What makes training multi-modal classification networks hard?
cvpr2020
一句话总结:多模态训练时利用验证集与训练集结合得到的过拟合指标来调制不同模态的Loss权重,解决多模态训练不平衡问题。
一句话讲完,还是有很多问题的,这篇文章也值得我写一篇笔记。
多模态融合方式
(1)Early Fusion
在原始数据输入的时候就concat或通过其他方式融合
(2)Mid Fusion
在提取特征后concat,再过Fusion模块,再过分类头
(3)Late Fusion
提取特征后concat,直接过分类头
什么是多模态训练不平衡问题?
起因是作者发现在视频分类任务上,多模态模型反而不如单模态模型
如上图,A是Audio,OF是光流(optical flow)。
用的模型都是差不多的,举个例子ÿ