7个获得训练数据的方法

数据科学家知道没有经过训练的统计模型基本上没用。没有高质量的标注训练数据,监督学习就不能正常工作,没有办法确保模型可以预测,分类或者准确分析指定的现象


Training Data

当你在做监督学习时,如果找不到正确的训练数据,那么很难搭建这个模型。即使你找到了正确的训练数据集,如果这些数据没有被正确标注或者注释用来训练你的机器学习算法,这些数据也没有很大的用处。

然而,大多数的数据科学家不愿意做标注的工作因为这个工作往往是重复枯燥的并且数据标注工作往往被看作是最低级的工作。下面是我总结的几个方法可以较轻松获得训练数据



  1. 对现有的训练数据和标签再利用: 这是最简便和便宜的方法,前提是新的问题数据需求和原来的数据需求相似。在采用这个办法时,可以采用迁移学习的方法来确定训练数据源哪些可以复用在新的模型上
  2. 免费渠道的标注训练数据: 比如利用网络爬虫.
  3. 探索未标注的免费训练数据:寻找你们领域开源的数据集.
  4. 在高质量的数据集上重新训练模型: 你自己的数据可能不足以训练模型。我们建议你可以先在可用的开源数据集上面初步训练模型,然后在比较小的,高质量的标注数据集上重新训练模型。当你获得了更多的标注数据时,在对算法模型进行迭代
  5. 外包数据标注服务给专业的训练数据提供商: 你可能没有足够的内部员工帮你标注训练数据. 你可以外包给专业的训练数据服务商比如 sparkapi. 这能确保你快速的获得大量的标注数据,同时因为他们往往使用更专业优化过的标注工具所以往往标注效果优于你自建团队
  6. 在网上APP中嵌入标注任务: 在客户常用的APP中嵌入一些图片分类,识别的任务
  7. 优化别人训练的模型 M


  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值