机器学习_数据获取

数据获取

1.一些常见的机器学习现成数据集

MNIST:手写数据集
ImageNet:图片数据集,从图片搜索引擎上获得
AudioSet:音频数据集,youtube上的音频切片
Kinetics:人类行为数据集,youtube上的视频切片
KITTI:无人驾驶数据集,被相机记录到的一些交通场景
Amazon Review:评论数据集,亚马逊网站上的一些用户评论
SQuAD:问答数据集
LibriSpeech:有声读物数据集

2.从哪获取数据集

1.Paperswithcodes Datasets
2.Kaggle Datasets
3.Google Dataset search
4.tensorflow、sklearn
5.各种会议、公司的机器学习竞赛
6.Open Data on AWS
7.自己公司或者组织的data lakes

优点缺点
学术数据集干净、难度适中选择太少,太简单,通常规模很小
竞赛数据集接近真实的机器学习应用简单,只有一些热点话题的数据集
原始数据集灵活性很强需要花费很大力气进行处理

3.生成数据

  1. 使用生成对抗网络
  2. 数据增强
    对数据PS,例如:加噪音,旋转等

4.其他方法

  1. 爬虫
  2. 去现实生活中采集
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值