连续做了一些小数据量的测试。对于大数据量的测试一直苦于找不到合适数据集而迟迟没有进行。近期利用FMA(音乐分析数据集)最小的数据集(small)其中的4256首30秒的音频从转换到模型建立到最后的预测分析进行了测试。生成了文件,总共耗时3小时完成。其中模型特征提取最为耗时。
根据得到的数据,我抽取出Annoying这类的数据,在本次测试中总共出现了25条。如下
000203, | Annoying | 烦人的 |
001701, | Annoying | 烦人的 |
003270, | Annoying | 烦人的 |
003537, | Annoying | 烦人的 |
004017, | Annoying | 烦人的 |
006469, | Annoying | 烦人的 |
010438, | Annoying | 烦人的 |
014319, | Annoying | 烦人的 |
018044, | Annoying | 烦人的 |
027978, | Annoying | 烦人的 |
040234, | Annoying | 烦人的 |
052945, | Annoying | 烦人的 |
056249, | Annoying | 烦人的 |
057418, | Annoying | 烦人的 |
059683, | Annoying | 烦人的 |
064857, | Annoying | 烦人的 |
067364, | Annoying | 烦人的 |
074302, | Annoying | 烦人的 |
080754, | Annoying | 烦人的 |
081523, | Annoying | 烦人的 |
081782, | Annoying | 烦人的 |
088861, | Annoying | 烦人的 |
088873, | Annoying | 烦人的 |
088874, | Annoying | 烦人的 |
091186, | Annoying | 烦人的 |
由于数量较少,我对每首都去试听。
000203.mp3:轻抚吉他的 沙哑的男声在低吟。似乎和Annoying没有什么关系。
001701.mp3:应该来源于【spires that in the sunset rise】,但是确实没有找到完整的歌曲。如果该片段进入Annoying,可能是由于主观因素影响。
003270.mp3:整个音频中似乎存在一点点杂音。30s中至少存在20s以上的类似吉他的solo。最后有一段女声的空灵的吟唱。现在的归属有点牵强
003537.mp3:应该是《we'll never dream again》截取部分应该是副歌部分。1:16开始到1:40结束的。音质似乎存在杂音。不知道是不是这个影响的。所以,我将该歌曲整体下载后进行第二次分析。整首歌下载的是 192k速率的。分析得出calm。看来音乐片段以及音质对情绪存在影响
004017.mp3:片段部分有点Lost Rivers的感觉。看信息是 Nalle的《New Roots》。但是我把整首歌听完都没有找到这个片段。
006469.mp3:感觉是印度的音乐。整体没有什么让人感到烦心的情况。应该是个误判。
010438.mp3:也没有找到整首歌曲。整个片段似乎是风琴的solo,伴随着下小雨的连续滴答声。我个人确实不是太喜欢下雨。
014319.mp3:原生态的歌曲。始终觉得音质上不是太好。
(我是木耳,也没有任何的音乐基础。从出生到现在都是五音不全)
018044.mp3:类似马头琴的solo,音质确实不是太好。抛开音质,是不该划入此类的
027978.mp3:我第一感觉类似《心经》的多人吟唱。
040234.mp3:类似在扩音器里的女声。没有伴奏。在30s的时间里,如果不知道歌词含义,确实有点烦人感觉
052945.mp3:吉他和弦加女声。不该划入烦人心情一类
056249.mp3:这首片段也不该划入烦人一类
057418.mp3:这首片段类似恐怖片的配乐。一进入就是啸叫;
059683.mp3:手鼓solo居多。主观上我确实不太好评价。但是明确的是不该属于烦人一类
064857.mp3:如果论旋律,不该划入。但是坚持听30s。个人主观上很反感。
067364.mp3:不应该划入。
074302.mp3:抛开音质不该划入;
080754.mp3:口琴伴奏加女声。整个片段噪音严重。个人主观很反感
081523.mp3:不该划入;
081782.mp3:不该划入;
088861.mp3:不该划入;
088873.mp3:不该划入;
088874.mp3:不该划入;
091186.mp3:十分模糊的笛子的solo。不该划入
然后根据调整,再次重新执行分析。没有了Annoying分类。但是Nervous 焦虑分类比第一次分析多了8个。达到351首。
随机抽取1/10的音频试听。除了有一个 对话的音频被判定为Nervous,其他的都和所判定的分类一致。要么是直接录制的空旷山谷的风声伴随着急促的脚步声,要么就是马路上的汽车的鸣笛声,还有急促的音乐,类似恐怖片的配乐。
对于剩下的分类,我没有挨个核对。毕竟如同之前的博文里提及,音乐是一个时域的消耗品,过多的去核对,根本没有时间和精力。现在我真想找到已经存在的音乐情感标签数据集(不要歌词的)。如各位有知道的望不吝赐教。
FMA 音频情感的第一版的标注信息下载:
https://download.csdn.net/download/Erice/21980092
如果大家觉得 积分没有,可以私信我,我调整一下 0积分下载