一、数据获取
数据获取是很困难的
1.1 数据发现(找数据)
- 寻找已有数据集
- 寻找公用数据集来检验我的想法
- 收集数据
常见数据集 :MNIST/ImageNet/AudioSet/Kinetics
找数据集:Paperswithcodes Datasets/Kaggle Datasets/Google Dataset Search/Open Data on AWS
1.2 数据融合
- 产品数据通常存在多个表中,需要进行Join合并
- 关键问题:找到Join的key、处理重复列、空数据行、数值冲突
1.3 数据生成
- 使用GANs生成数据
- 数据增强。图像增强:旋转、噪音、拉伸;文本增强:多次翻译