数据获取
1.一些常见的机器学习现成数据集
MNIST:手写数据集
ImageNet:图片数据集,从图片搜索引擎上获得
AudioSet:音频数据集,youtube上的音频切片
Kinetics:人类行为数据集,youtube上的视频切片
KITTI:无人驾驶数据集,被相机记录到的一些交通场景
Amazon Review:评论数据集,亚马逊网站上的一些用户评论
SQuAD:问答数据集
LibriSpeech:有声读物数据集
2.从哪获取数据集
1.Paperswithcodes Datasets
2.Kaggle Datasets
3.Google Dataset search
4.tensorflow、sklearn
5.各种会议、公司的机器学习竞赛
6.Open Data on AWS
7.自己公司或者组织的data lakes
优点 | 缺点 | |
学术数据集 | 干净、难度适中 | 选择太少,太简单,通常规模很小 |
竞赛数据集 | 接近真实的机器学习应用 | 简单,只有一些热点话题的数据集 |
原始数据集 | 灵活性很强 | 需要花费很大力气进行处理 |
3.生成数据
- 使用生成对抗网络
- 数据增强
对数据PS,例如:加噪音,旋转等
4.其他方法
- 爬虫
- 去现实生活中采集