一种新的多模态音乐情绪识别模型 Multimodal Music Emotion Recognition with Feature Decom

作者:禅与计算机程序设计艺术

1.简介

随着多媒体时代的到来,音乐作为最具代表性的多媒体形式在人们的生活中越来越受到重视。在人们不断寻找感动、满足、享受的同时,它也成为娱乐产业的热点话题。因此,对于音乐情绪识别系统的需求也越来越大。现有的基于特征的音乐情绪识别方法存在着很大的缺陷,主要原因在于无法处理多模态信息,即音频信号与文本信号之间缺乏统一的特征表示。

为了解决这一问题,本文提出了一种新的多模态音乐情绪识别模型,该模型能够将音频信号和文本信号进行分离并分别进行特征抽取,然后通过堆叠多个任务学习器对不同类型的特征进行学习,最后结合两个特征的融合结果对音乐情绪进行预测。实验表明,该模型在多个数据集上取得了较好的性能,并获得了更高的准确率。

2.相关工作

首先回顾一下音频信号与文本信号的多模态分类方法。由于音频信号与文本信号之间的差异,传统的多模态分类方法一般会采用不同类型的特征进行表示。例如,TonGCN [2] 将语音信号经过时间频率分析得到不同频率下的时间向量;LyricsCNN [3] 通过卷积神经网络模型提取音频信号中的歌词信息;WaveBERT [4] 和 C-TCN [5] 对音频信号进行特征提取后,再和文本信号一起输入到BERT等预训练模型中进行分类。这些方法均采用了不同的特征表示。

而随着多模态机器学习领域的兴起,有一些方法试图将不同模态的信息整合起来形成有效的特征表示。例如,GLAD [6] 提出了一个多模态框架,使得不同模态的特征可以共同参与到一个统一的表征学习阶段中。这个方案成功地整合了图像和语音的特征,并产生了比单独使用一个模态的特征表现更好的结果。其中,MMSA-SOTA [7] 使用联合学习方法来融合不同模态的特征,并取得了最先进的结果。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

禅与计算机程序设计艺术

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值