
论文解读:CARAT P3
好的,下面我通过一个简单的例子,来帮助理解这个跨模态特征融合的过程,特别是涉及到样本洗牌和模态洗牌(Sample-wise Shuffle 和 Modality-wise Shuffle)。假设情景文本模态:例如,“愤怒”和“快乐”的情感描述。视觉模态:例如,图像中展现的情绪(“愤怒”面部表情和“快乐”面部表情)。音频模态:例如,语音中的情绪表达(“愤怒”的语气和“快乐”的语调)。我们希望通过跨模态特征融合来增强情感识别的表现。步骤 1:堆叠模态特征假设我们有3个样本(即 ( B = 3 ))和。




























