关于音频情感分类的随笔（4）

最新推荐文章于 2024-06-05 21:10:45 发布

Erice

最新推荐文章于 2024-06-05 21:10:45 发布

阅读量422

点赞数

分类专栏：音乐情感音频分类声波通讯文章标签：其他音视频

本文链接：https://blog.csdn.net/Erice/article/details/120140157

版权

声波通讯同时被 3 个专栏收录

8 篇文章 3 订阅

订阅专栏

音频分类

7 篇文章 1 订阅

订阅专栏

音乐情感

6 篇文章 0 订阅

订阅专栏

连续做了一些小数据量的测试。对于大数据量的测试一直苦于找不到合适数据集而迟迟没有进行。近期利用FMA（音乐分析数据集）最小的数据集（small）其中的4256首30秒的音频从转换到模型建立到最后的预测分析进行了测试。生成了文件，总共耗时3小时完成。其中模型特征提取最为耗时。

根据得到的数据，我抽取出Annoying这类的数据，在本次测试中总共出现了25条。如下

000203,	Annoying	烦人的
001701,	Annoying	烦人的
003270,	Annoying	烦人的
003537,	Annoying	烦人的
004017,	Annoying	烦人的
006469,	Annoying	烦人的
010438,	Annoying	烦人的
014319,	Annoying	烦人的
018044,	Annoying	烦人的
027978,	Annoying	烦人的
040234,	Annoying	烦人的
052945,	Annoying	烦人的
056249,	Annoying	烦人的
057418,	Annoying	烦人的
059683,	Annoying	烦人的
064857,	Annoying	烦人的
067364,	Annoying	烦人的
074302,	Annoying	烦人的
080754,	Annoying	烦人的
081523,	Annoying	烦人的
081782,	Annoying	烦人的
088861,	Annoying	烦人的
088873,	Annoying	烦人的
088874,	Annoying	烦人的
091186,	Annoying	烦人的

由于数量较少，我对每首都去试听。

000203.mp3：轻抚吉他的沙哑的男声在低吟。似乎和Annoying没有什么关系。

001701.mp3:应该来源于【spires that in the sunset rise】，但是确实没有找到完整的歌曲。如果该片段进入Annoying，可能是由于主观因素影响。

003270.mp3:整个音频中似乎存在一点点杂音。30s中至少存在20s以上的类似吉他的solo。最后有一段女声的空灵的吟唱。现在的归属有点牵强

003537.mp3:应该是《we'll never dream again》截取部分应该是副歌部分。1:16开始到1:40结束的。音质似乎存在杂音。不知道是不是这个影响的。所以，我将该歌曲整体下载后进行第二次分析。整首歌下载的是 192k速率的。分析得出calm。看来音乐片段以及音质对情绪存在影响

004017.mp3:片段部分有点Lost Rivers的感觉。看信息是 Nalle的《New Roots》。但是我把整首歌听完都没有找到这个片段。

006469.mp3:感觉是印度的音乐。整体没有什么让人感到烦心的情况。应该是个误判。

010438.mp3:也没有找到整首歌曲。整个片段似乎是风琴的solo，伴随着下小雨的连续滴答声。我个人确实不是太喜欢下雨。

014319.mp3:原生态的歌曲。始终觉得音质上不是太好。

（我是木耳，也没有任何的音乐基础。从出生到现在都是五音不全）

018044.mp3:类似马头琴的solo，音质确实不是太好。抛开音质，是不该划入此类的

027978.mp3:我第一感觉类似《心经》的多人吟唱。

040234.mp3:类似在扩音器里的女声。没有伴奏。在30s的时间里，如果不知道歌词含义，确实有点烦人感觉

052945.mp3：吉他和弦加女声。不该划入烦人心情一类

056249.mp3:这首片段也不该划入烦人一类

057418.mp3：这首片段类似恐怖片的配乐。一进入就是啸叫；

059683.mp3:手鼓solo居多。主观上我确实不太好评价。但是明确的是不该属于烦人一类

064857.mp3:如果论旋律，不该划入。但是坚持听30s。个人主观上很反感。

067364.mp3:不应该划入。

074302.mp3:抛开音质不该划入；

080754.mp3:口琴伴奏加女声。整个片段噪音严重。个人主观很反感

081523.mp3:不该划入；

081782.mp3:不该划入；

088861.mp3:不该划入；

088873.mp3：不该划入；

088874.mp3:不该划入；

091186.mp3:十分模糊的笛子的solo。不该划入

然后根据调整，再次重新执行分析。没有了Annoying分类。但是Nervous 焦虑分类比第一次分析多了8个。达到351首。

随机抽取1/10的音频试听。除了有一个对话的音频被判定为Nervous，其他的都和所判定的分类一致。要么是直接录制的空旷山谷的风声伴随着急促的脚步声，要么就是马路上的汽车的鸣笛声，还有急促的音乐，类似恐怖片的配乐。

对于剩下的分类，我没有挨个核对。毕竟如同之前的博文里提及，音乐是一个时域的消耗品，过多的去核对，根本没有时间和精力。现在我真想找到已经存在的音乐情感标签数据集（不要歌词的）。如各位有知道的望不吝赐教。

FMA 音频情感的第一版的标注信息下载：

https://download.csdn.net/download/Erice/21980092

如果大家觉得积分没有，可以私信我，我调整一下 0积分下载

Erice

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
关于音频情感分类的随笔（4）

连续做了一些小数据量的测试。对于大数据量的测试一直苦于找不到合适数据集而迟迟没有进行。近期利用FMA（音乐分析数据集）最小的数据集（small）其中的4256首30秒的音频从转换到模型建立到最后的预测分析进行了测试。生成了文件，总共耗时3小时完成。其中模型特征提取最为耗时。...
复制链接

扫一扫