ML经典数据集
机器学习原理与实践(开源图书)-总目录,建议收藏,告别碎片阅读!
1 图像数据集
- ImageNet图像数据集, 包含1400万图像
- Tiny图像数据集, 包含8000万的32x32图像
- Flickr图像数据集, 包含100万图像
- CoPhIR图像数据集, 包含1亿600万图像
- ICCV-2011图像数据集, 包含2亿图像
- SUN图像数据集, 包含13万图像
2 视频数据集
CDVL(TheConsumer Digital Video Library) 消费者数字视频库对外提供高质量的源视频序列,可供研究和开发免费使用。CDVL还托管了几个视频质量数据集,包括五个VQEG HD Phase I数据集,BVI-HD,CCRIQ,its4s和T1A1。
LIVE database 出自德克萨斯大学的图像&视频工程实验室。该实验室的视觉科学家和视频工程师对图片和视频质量进行大规模主观和客观研究,对相关数据库做了严格的视觉检测/筛选。该数据库包含15+细分的自数据库。该数据库还包含若干视频质量评估的背景知识。
IVC数据库包含图像质量评价和视频质量评价数据库。IVC数据库由法国南特大学(Université de Nantes)的南特通信与网络研究所主持构建和维护。南特通信与网络研究所在图像&视频质量评价、离散信息表示、人类世界感知、机器学习和模式识别、网络和系统等方面具有深刻而广泛的研究。
3 音频数据集
谷歌发布的大规模一品数据集,AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2084320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音,乐器和风格以及常见的日常环境声音。
2000 HUB5 English Evaluation Transcripts由NIST(国家标准与技术研究院)2000年发起的HUB5评估中使用的40个英语电话对话的成绩单组成,其仅包含英语的语音数据集,百度最近的论文《深度语音:扩展端对端语音识别》使用的是这个数据集。
TED-LIUM是TED Talk的音频数据集,包含1495个录音和音频会议、159848条发音词典和部分WMT12公开的语料库。
4 综合数据集
系列文章
参考文献
- [1] 周志华. 机器学习. 清华大学出版社. 2016.
- [2] [日]杉山将. 图解机器学习. 人民邮电出版社. 2015.
- [3] 佩德罗·多明戈斯. 终极算法-机器学习和人工智能如何重塑世界. 中信出版社. 2018.