1. GTZAN:
非常古老(ˉ▽ ̄~),并且非常经典的音乐数据集。但是数据集中同样存在一些问题,标签上的错误[1]。
数据描述:
提供1000条音频数据,每条30s。一共包括10个音乐风格,每个风格包括100条数据。
大小:1.2G
Paper:
[1] The GTZAN dataset: Its contents, its faults, their effects on evaluation, and its future use
[2] Learning to Recognize Musical Genre from Audio
Code:
[1] https://github.com/Hguimaraes/gtzan.keras
[2] https://github.com/AmbarZaidi/Audio-Genre-Classification
2. 免费音乐档案(Free Music Archive-FMA):
数据描述:
根据文件大小,该项目提供四个不同的音频数据:
文件 | 时长 | 数量 | 类别数 | 是否均衡 | 大小 |
---|---|---|---|---|---|
fma_small.zip | 30s | 8,000 | 8 | 是 | 7.2G |
fma_medium.zip | 30s | 25,000 | 16 | 否 | 22G |
fma_large.zip | 30s | 106,574 | 161 | 否 | 93G |
fma_full | 30s | 106,574 | 161 | 否 | 879G |
每个文件夹包括四个文件:
· tracks.csv:106,574首曲目的每首曲目元数据,如ID,标题,艺术家,流派,标签和播放次数。
· genres.csv:163种风格的ID与他们的名字和父母(用于推断流派层次和顶级流派)。
· features.csv:用librosa提取的特征 。
· echonest.csv:由Echonest (现在的 Spotify)为13,129首音轨的子集提供的音频功能
Paper & Code:
Paper | Code |
---|---|
《Learning to Recognize Musical Genre from Audio》 | Github |
《Transfer Learning of Artist Group Factors to Musical Genre Classification》 | Gitlab |
《Ensemble of CNN-based Models using various Short-Term Input》 | Gitlab |
《Detecting Music Genre Using Extreme Gradient Boosting》 | Gitlab |
《ConvNet on STFT spectrograms》 | Gitlab |
《Xception on mel-scaled spectrograms》 | Gitlab |
《Audio Dual Path Networks on mel-scaled spectrograms》 | Gitlab |
baseline:
https://nbviewer.jupyter.org/github/mdeff/fma/blob/outputs/baselines.ipynb
3. 百万歌曲数据集
数据描述:
数据集包括一百万首歌曲的特征分析和元数据。该数据集不包含音频,只包含得出的特征。样本声音的获取方式Github。
以’Never Gonna Give You Up’为例说明数据的特征:详细描述
Paper:
[1] A Preliminary Study on a Recommender System for the Million Songs Dataset Challenge
4. 城市声音分类
数据描述:
大小:训练集 3.41 GB(压缩),测试集 2.16GB(压缩)
记录数: 10个类别,8732条声音标注,的城市声音片段(<= 4s)
Paper:
[1] Deep Convolutional Neural Networks and Data Augmentation for Environmental Sound Classification
[2] FEATURE LEARNING WITH DEEP SCATTERING FOR URBAN SOUND ANALYSIS
[3] UNSUPERVISED FEATURE LEARNING FOR URBAN SOUND CLASSIFICATION
Code:
Urban sound classification using Deep Learning-Github
Urban Sound Classification — Part 1: sound wave, digital audio signal
Sound Classification using Spectrogram Images