前言:因为我的小破项目需要用到GANsynth合成音乐,但是网络上能搜索到的资料实在太少,所以干脆自己一点点学,并将学习内容形成博客,兼做记录与共享之用。
Nsynth数据集
概述
一个大规模且高质量的标注音符数据集。
NSynth是一个包含305,979个音符的音频数据集,每个音符都有一个独特的音高、音色和包络。对于来自商业样本库的1,006种乐器,我们通过在标准MIDI钢琴的每个音高(21-108)以及五个不同的速度(25、50、75、100、127)范围内生成四秒钟、单音的16kHz音频片段,称为音符。音符在前三秒被保持,最后一秒允许衰减。
有些乐器不能产生这个范围内的所有88个音,最终每件乐器平均有65.4个音。此外,商业样本包偶尔会包含多个速度的重复声音,每个音高平均有4.75个独特的速度。
同时有三条附加信息:来源(声学或电子),种别(乐器种别),音质。
文件格式
两种可选形式:
- TFRecord
- JSON:非音频 / 16bit wav
三个Part:
- 训练集:289,205 examples
- 验证集:12,678 examples
- 测试集:4,096 examples
数据特征及编码:详见链接(太多了救命(/▽\)
JSON数据样例:
(哈?你问我为啥只放json?因为另一种看不懂
浅浅理解一下:
- qualities:one-hot编码
- velocity:midi击键的速度