1.2-跟李沐学Al【斯坦福21秋季:实用机器学习中文版】

1、找数据和融合不同数据

寻找哪些数据可用

大的深的神经网络需要更大数据集。
做产品并不会有很多现成数据集,这就需要搜集数据,进行数据采集。

常见机器学习数据集来源

MNIST:手写数据集
ImageNet:从图片搜索引擎搜集的数据集
AudioSet:YouTube声音片段数据集
Kinetics:YouTube视频片段数据集
KITTI:无人驾驶数据集
Amazon Review:亚马逊用户评论
SQuAD:来自维基百科的问答
LibriSpeech:有声读物

去哪找数据?

Paperwhithcodes Dataests:学术数据集,经过清洗难度适中,选择面小不适合做产品
Kaggle Datasets:数据科学家提供的数据集
Google Dataset search: 数据搜索引擎
工具包数据集:tensorflow,huggingface
各种会议/公司ML竞赛开放数据
Oen Data on AWS:很大的原始数据

2、数据融合

  • 将来自多个数据源的数据合并到一个一致的数据集
  • 产品数据通常存储在多个表中,例如房屋信息表、销售数据表、销售代理数据表
  • 通过键连接表
  • 关键问题:识别ID、缺失行、冗余列、值冲突

3、数据生成

  • GAN
  • 数据增强(Data augmentation)

总结

  • 找到正确的数据是一个挑战
  • 工业数据VS学术数据
  • 数据集结合了多个数据源的数据
  • 数据增强很常见
  • 数据合成越来越流行
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值