一种新的多模态音乐情绪识别模型 Multimodal Music Emotion Recognition with Feature Decom

本文链接：https://blog.csdn.net/universsky2015/article/details/132222830

本文提出了一种新的多模态音乐情绪识别模型，该模型通过对音频信号和文本信号进行特征抽取和融合，提高了音乐情绪识别的准确性。实验在多个数据集上展示了该模型的优越性能，特别是在特征融合策略方面，特征交叉和平均策略相较于无融合策略表现出更好的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者：禅与计算机程序设计艺术

1.简介

随着多媒体时代的到来，音乐作为最具代表性的多媒体形式在人们的生活中越来越受到重视。在人们不断寻找感动、满足、享受的同时，它也成为娱乐产业的热点话题。因此，对于音乐情绪识别系统的需求也越来越大。现有的基于特征的音乐情绪识别方法存在着很大的缺陷，主要原因在于无法处理多模态信息，即音频信号与文本信号之间缺乏统一的特征表示。

为了解决这一问题，本文提出了一种新的多模态音乐情绪识别模型，该模型能够将音频信号和文本信号进行分离并分别进行特征抽取，然后通过堆叠多个任务学习器对不同类型的特征进行学习，最后结合两个特征的融合结果对音乐情绪进行预测。实验表明，该模型在多个数据集上取得了较好的性能，并获得了更高的准确率。

2.相关工作

首先回顾一下音频信号与文本信号的多模态分类方法。由于音频信号与文本信号之间的差异，传统的多模态分类方法一般会采用不同类型的特征进行表示。例如，TonGCN [2] 将语音信号经过时间频率分析得到不同频率下的时间向量；LyricsCNN [3] 通过卷积神经网络模型提取音频信号中的歌词信息；WaveBERT [4] 和 C-TCN [5] 对音频信号进行特征提取后，再和文本信号一起输入到BERT等预训练模型中进行分类。这些方法均采用了不同的特征表示。

而随着多模态机器学习领域的兴起，有一些方法试图将不同模态