MER 音乐情感识别-论文笔记6

《Multi-scale Context Based Attention for Dynamic Music Emotion Prediction》
在这里插入图片描述



前言

动态音乐情感预测是识别音乐中连续的情感信息。之前的大多数模型都是从声学特征到情感标签的一对一的映射。在本文中,采用维价唤醒(V-A)情绪模型来表示音乐中的动态情绪,音乐和V-A情感标签在时域上不具有一一对应关系,而音乐情感在某一时刻的表达是先前音乐内容在一段时间内的积累,因此提出了基于长短时记忆(LSTM)的序列对一映射的动态音乐情感预测方法。基于这一序列到一个音乐情感映射,证明了不同时间尺度的前置内容对LSTM模型的性能有影响,因此进一步提出了基于多尺度上下文的注意(MCA)用于动态音乐情感预测

一、数据集

本文采用的数据集来自 Emotion in Music at MediaEval2015。该训练集包含431个来自不同歌曲的45秒音乐片段,从歌曲的随机(均匀分布)起点提取。测试集由58首完整的歌曲组成,平均持续时间为234±105.7秒。

在训练和测试中,5-7名注释员分别对每首歌曲的唤醒和配价进行注释,他们在注释之前听了整首歌曲,以熟悉音乐并减少反应时间滞后。注释的时间分辨率为500ms。由于每首歌曲或片段前15秒的动态注释不稳定,因此任务组织者不提供动态注释。

Medieval 2015提供的输入音乐数据在标记音乐数据之前包含15s长的未标记音乐数据,不能直接用于培训过程。然而,从这些片段中提取的特征仍然保留着音乐情感的潜在信息,这些信息是后续标记数据的基础,自然可以用于生成不同尺度的数据。因此,边缘数据不需要特殊处理。

二、特征

使用openSMILE提取特征,由65个低级声学描述符(LLD)及其一阶导数的平均值和标准偏差组成,在500 ms的非重叠段中。

openSMILE为每0.5s提取的260个低级特征。

三、模型方法

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

四、实验结果

  1. 如果只检查图中的前三个橙色条(单尺度模型的A-LSTM),会发现序列长度的增加可以提高配价的表现,但会削弱唤醒的表现。这可能是因为配价和觉醒的不同特征。配价更依赖于输入的长期影响,而觉醒更依赖于短期影响。如果检查所有唤醒条,一个明显的发现是最右边的图形条,即提出的使用A-LSTM的MCA模型,优于单尺度模型和统一MCA模型。
  2. 从图表中看到的,配价中的表现提升不如说是唤醒中的表现提升。这可能是因为以下原因:首先,配价实际上比唤醒更难预测,这可以通过所有配价结果都比唤醒结果更糟糕的事实来发现。第二,测试集的配价注释与唤醒注释之间的一致性较差,这可能会在一定程度上影响最终结果。
  3. 与最先进的模型相比,除了基于DBLSTM的多尺度融合模型外,MCA模型的性能超过了所有单一模型,该模型利用了多个模型中包含的信息,并将它们混合以获得更好的性能 。

总结

音乐与VA情感标签在时域上不存在一一对应关系,音乐情感在某一时刻的表达是前一段时间音乐内容的积累,由此Ma等人提出了基于LSTM的序列对一(sequence-to-one)映射的动态音乐情感预测方法。不同时间尺度的前期内容会对LSTM模型产生影响,但目前没有关于多少先前的上下文最有利于情绪预测的结论,因此他们进一步提出了基于多尺度上下文注意力(MCA)用于动态情感预测,通过赋予不同时间尺度的先前上下文不同的注意力权重对它们给予不同的关注,注意力权重由模型动态计算得到。对单尺度注意力的实验表明,序列长度的增加虽然可以提高 valence 的性能,但会削弱 arousal 的性能。 这可能是由于valence和arousal的不同特性:valence 更依赖于输入的长期影响,而 arousal 更依赖于短期影响。MCA与单尺度注意力相比获得了最优的性能,但其性能并不如之前提出的基于DBLSTM的多尺度融合模型。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值