文章目录
- **音乐数据集**
- 百万歌数据集
- **语音数据集**
- 口语维基百科语料库
- 语音命令数据集
- 零资源语音挑战
- ISOLET数据集
- 阿拉伯语言语料库
- TIMIT语料库
- **音响/自然**
- 环境音频数据集
- 城市声音分类
- 城市声音数据集
- 鸟类音频检测挑战
- 中文文本分类数据集THUCNews
- 中文完形填空数据集
- 清华大学开放中文词库
- 中华古诗词数据库
- 上百种预训练中文词向量
- 《口袋妖怪》跨语种命名对照数据集
- 中文突发事件语料库
- 中国股市爬取信息数据集
- 中文语料小数据
- Tushare财经数据接口
- 保险行业语料库
- 中文人名语料库
- 中文简称数据集
- 汉字拆字字典
- 中文对话情感分析数据集
- 开源生物识别数据:
- Uber 2B trip data:首次展示 2 百万公里的出行数据。
- Core50:用于连续目标识别的新数据集和基准。
- Kaggle 数据集:
- Data Portal:
- Open Data Monitor:
- Mut1ny 头部/面部分割数据集:
- Github 上的优秀公共数据集:
- 自然图像数据集
- 地理空间数据
- 人脸数据集
- 耶鲁人脸数据库:
- 视频数据集
- 文本数据集
- 问答数据集
- 情感数据集
- 推荐和排名系统
- 网络和图形
- 语音数据集
- 音符音乐数据集
- 其它数据集
- 健康 &生物数据
音乐数据集
-
免费音乐档案 https://github.com/mdeff/fma
-
FMA是音乐分析的数据集。数据集由全长和HQ音频,预先计算的功能以及跟踪和用户级元数据组成。它是一个开放的数据集,用于评估音乐信息检索(MIR)中的几个任务。
- https://en.wikipedia.org/wiki/Music_information_retrieval
这个巨大的,几乎1000 GB的大小。
- https://en.wikipedia.org/wiki/Music_information_retrieval
百万歌数据集
https://labrosa.ee.columbia.edu/millionsong/
百万歌数据集是一个免费提供的音频功能和元数据的集合,为一百万当代流行音乐曲目。数据集的核心是100万首歌曲的特征分析和元数据。数据集不包含任何音频,仅包含派生特征。可以使用哥伦比亚大学提供的代码从7digital等服务中获取样本音频。此数据集的大小约为280 GB。
语音数据集
免费口语数字数据集
https://github.com/Jakobovski/free-spoken-digit-dataset
创建这个是为了解决识别音频样本中的语音数字的任务。这是一个开放的数据集,所以希望它会随着人们不断提供更多样本而不断增长。目前,它包含以下特征:1)3个扬声器2)1,500个录音(每个扬声器每个数字50个)3)英语发音。这是一个非常小的设置 - 大小约为10 MB。
LibriSpeech
http://www.openslr.org/12/
该数据