关于音频情感分类的随笔(4)

连续做了一些小数据量的测试。对于大数据量的测试一直苦于找不到合适数据集而迟迟没有进行。近期利用FMA(音乐分析数据集)最小的数据集(small)其中的4256首30秒的音频从转换到模型建立到最后的预测分析进行了测试。生成了文件,总共耗时3小时完成。其中模型特征提取最为耗时。

根据得到的数据,我抽取出Annoying这类的数据,在本次测试中总共出现了25条。如下

000203,

Annoying

烦人的

001701,

Annoying

烦人的

003270,

Annoying

烦人的

003537,

Annoying

烦人的

004017,

Annoying

烦人的

006469,

Annoying

烦人的

010438,

Annoying

烦人的

014319,

Annoying

烦人的

018044,

Annoying

烦人的

027978,

Annoying

烦人的

040234,

Annoying

烦人的

052945,

Annoying

烦人的

056249,

Annoying

烦人的

057418,

Annoying

烦人的

059683,

Annoying

烦人的

064857,

Annoying

烦人的

067364,

Annoying

烦人的

074302,

Annoying

烦人的

080754,

Annoying

烦人的

081523,

Annoying

烦人的

081782,

Annoying

烦人的

088861,

Annoying

烦人的

088873,

Annoying

烦人的

088874,

Annoying

烦人的

091186,

Annoying

烦人的

由于数量较少,我对每首都去试听。

000203.mp3:轻抚吉他的 沙哑的男声在低吟。似乎和Annoying没有什么关系。

001701.mp3:应该来源于【spires that in the sunset rise】,但是确实没有找到完整的歌曲。如果该片段进入Annoying,可能是由于主观因素影响。

003270.mp3:整个音频中似乎存在一点点杂音。30s中至少存在20s以上的类似吉他的solo。最后有一段女声的空灵的吟唱。现在的归属有点牵强

003537.mp3:应该是《we'll never dream again》截取部分应该是副歌部分。1:16开始到1:40结束的。音质似乎存在杂音。不知道是不是这个影响的。所以,我将该歌曲整体下载后进行第二次分析。整首歌下载的是 192k速率的。分析得出calm。看来音乐片段以及音质对情绪存在影响

004017.mp3:片段部分有点Lost Rivers的感觉。看信息是 Nalle的《New Roots》。但是我把整首歌听完都没有找到这个片段。

006469.mp3:感觉是印度的音乐。整体没有什么让人感到烦心的情况。应该是个误判。

010438.mp3:也没有找到整首歌曲。整个片段似乎是风琴的solo,伴随着下小雨的连续滴答声。我个人确实不是太喜欢下雨。

014319.mp3:原生态的歌曲。始终觉得音质上不是太好。

(我是木耳,也没有任何的音乐基础。从出生到现在都是五音不全)

018044.mp3:类似马头琴的solo,音质确实不是太好。抛开音质,是不该划入此类的

027978.mp3:我第一感觉类似《心经》的多人吟唱。

040234.mp3:类似在扩音器里的女声。没有伴奏。在30s的时间里,如果不知道歌词含义,确实有点烦人感觉

052945.mp3:吉他和弦加女声。不该划入烦人心情一类

056249.mp3:这首片段也不该划入烦人一类

057418.mp3:这首片段类似恐怖片的配乐。一进入就是啸叫;

059683.mp3:手鼓solo居多。主观上我确实不太好评价。但是明确的是不该属于烦人一类

064857.mp3:如果论旋律,不该划入。但是坚持听30s。个人主观上很反感。

067364.mp3:不应该划入。

074302.mp3:抛开音质不该划入;

080754.mp3:口琴伴奏加女声。整个片段噪音严重。个人主观很反感

081523.mp3:不该划入;

081782.mp3:不该划入;

088861.mp3:不该划入;

088873.mp3:不该划入;

088874.mp3:不该划入;

091186.mp3:十分模糊的笛子的solo。不该划入

然后根据调整,再次重新执行分析。没有了Annoying分类。但是Nervous 焦虑分类比第一次分析多了8个。达到351首。

随机抽取1/10的音频试听。除了有一个 对话的音频被判定为Nervous,其他的都和所判定的分类一致。要么是直接录制的空旷山谷的风声伴随着急促的脚步声,要么就是马路上的汽车的鸣笛声,还有急促的音乐,类似恐怖片的配乐。

对于剩下的分类,我没有挨个核对。毕竟如同之前的博文里提及,音乐是一个时域的消耗品,过多的去核对,根本没有时间和精力。现在我真想找到已经存在的音乐情感标签数据集(不要歌词的)。如各位有知道的望不吝赐教。

FMA 音频情感的第一版的标注信息下载:

​​​​​​​https://download.csdn.net/download/Erice/21980092

如果大家觉得 积分没有,可以私信我,我调整一下 0积分下载

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值