1、找数据和融合不同数据
寻找哪些数据可用
大的深的神经网络需要更大数据集。
做产品并不会有很多现成数据集,这就需要搜集数据,进行数据采集。
常见机器学习数据集来源
MNIST:手写数据集
ImageNet:从图片搜索引擎搜集的数据集
AudioSet:YouTube声音片段数据集
Kinetics:YouTube视频片段数据集
KITTI:无人驾驶数据集
Amazon Review:亚马逊用户评论
SQuAD:来自维基百科的问答
LibriSpeech:有声读物
去哪找数据?
Paperwhithcodes Dataests:学术数据集,经过清洗难度适中,选择面小不适合做产品
Kaggle Datasets:数据科学家提供的数据集
Google Dataset search: 数据搜索引擎
工具包数据集:tensorflow,huggingface
各种会议/公司ML竞赛开放数据
Oen Data on AWS:很大的原始数据
2、数据融合
- 将来自多个数据源的数据合并到一个一致的数据集
- 产品数据通常存储在多个表中,例如房屋信息表、销售数据表、销售代理数据表
- 通过键连接表
- 关键问题:识别ID、缺失行、冗余列、值冲突
3、数据生成
- GAN
- 数据增强(Data augmentation)
总结
- 找到正确的数据是一个挑战
- 工业数据VS学术数据
- 数据集结合了多个数据源的数据
- 数据增强很常见
- 数据合成越来越流行