音乐数据搜集

最新推荐文章于 2025-03-10 13:39:27 发布

linxid

最新推荐文章于 2025-03-10 13:39:27 发布

阅读量9k

点赞数 9

分类专栏：数据挖掘文章标签：音乐风格分类 GTZAN FMA millionsong urban sound

本文链接：https://blog.csdn.net/linxid/article/details/87980916

版权

数据挖掘专栏收录该内容

7 篇文章

订阅专栏

本文介绍了多个音乐数据集，包括GTZAN、免费音乐档案(FMA)、百万歌曲数据集及城市声音分类。GTZAN是经典但标签有误的音乐风格数据集；FMA提供不同规模的音频数据，涵盖多种音乐风格；百万歌曲数据集分析了大量歌曲的特征；城市声音分类则专注于环境声音的识别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. GTZAN:

非常古老(ˉ▽￣～)，并且非常经典的音乐数据集。但是数据集中同样存在一些问题，标签上的错误[1]。

数据描述：

提供1000条音频数据，每条30s。一共包括10个音乐风格，每个风格包括100条数据。
大小：1.2G

Paper：

[1] The GTZAN dataset: Its contents, its faults, their effects on evaluation, and its future use
[2] Learning to Recognize Musical Genre from Audio

Code:

[1] https://github.com/Hguimaraes/gtzan.keras
[2] https://github.com/AmbarZaidi/Audio-Genre-Classification

2. 免费音乐档案(Free Music Archive-FMA)：

数据描述：

根据文件大小，该项目提供四个不同的音频数据：

文件	时长	数量	类别数	是否均衡	大小
fma_small.zip	30s	8,000	8	是	7.2G
fma_medium.zip	30s	25,000	16	否	22G
fma_large.zip	30s	106,574	161	否	93G
fma_full	30s	106,574	161	否	879G

每个文件夹包括四个文件：

· tracks.csv：106,574首曲目的每首曲目元数据，如ID，标题，艺术家，流派，标签和播放次数。
· genres.csv：163种风格的ID与他们的名字和父母（用于推断流派层次和顶级流派）。
· features.csv：用librosa提取的特征。
· echonest.csv：由Echonest （现在的 Spotify）为13,129首音轨的子集提供的音频功能

Paper & Code：

Paper	Code
《Learning to Recognize Musical Genre from Audio》	Github
《Transfer Learning of Artist Group Factors to Musical Genre Classification》	Gitlab
《Ensemble of CNN-based Models using various Short-Term Input》	Gitlab
《Detecting Music Genre Using Extreme Gradient Boosting》	Gitlab
《ConvNet on STFT spectrograms》	Gitlab
《Xception on mel-scaled spectrograms》	Gitlab
《Audio Dual Path Networks on mel-scaled spectrograms》	Gitlab