作者:禅与计算机程序设计艺术
1.简介
随着多媒体时代的到来,音乐作为最具代表性的多媒体形式在人们的生活中越来越受到重视。在人们不断寻找感动、满足、享受的同时,它也成为娱乐产业的热点话题。因此,对于音乐情绪识别系统的需求也越来越大。现有的基于特征的音乐情绪识别方法存在着很大的缺陷,主要原因在于无法处理多模态信息,即音频信号与文本信号之间缺乏统一的特征表示。
为了解决这一问题,本文提出了一种新的多模态音乐情绪识别模型,该模型能够将音频信号和文本信号进行分离并分别进行特征抽取,然后通过堆叠多个任务学习器对不同类型的特征进行学习,最后结合两个特征的融合结果对音乐情绪进行预测。实验表明,该模型在多个数据集上取得了较好的性能,并获得了更高的准确率。
2.相关工作
首先回顾一下音频信号与文本信号的多模态分类方法。由于音频信号与文本信号之间的差异,传统的多模态分类方法一般会采用不同类型的特征进行表示。例如,TonGCN [2] 将语音信号经过时间频率分析得到不同频率下的时间向量;LyricsCNN [3] 通过卷积神经网络模型提取音频信号中的歌词信息;WaveBERT [4] 和 C-TCN [5] 对音频信号进行特征提取后,再和文本信号一起输入到BERT等预训练模型中进行分类。这些方法均采用了不同的特征表示。
而随着多模态机器学习领域的兴起,有一些方法试图将不同模态