7个获得训练数据的方法

AONDATA

于 2018-03-30 18:26:26 发布

阅读量5.6k

点赞数

分类专栏：分享文章标签：数据标注 training data 深度学习

分享专栏收录该内容

16 篇文章

订阅专栏

数据科学家知道没有经过训练的统计模型基本上没用。没有高质量的标注训练数据，监督学习就不能正常工作，没有办法确保模型可以预测，分类或者准确分析指定的现象

Training Data

当你在做监督学习时，如果找不到正确的训练数据，那么很难搭建这个模型。即使你找到了正确的训练数据集，如果这些数据没有被正确标注或者注释用来训练你的机器学习算法，这些数据也没有很大的用处。

然而，大多数的数据科学家不愿意做标注的工作因为这个工作往往是重复枯燥的并且数据标注工作往往被看作是最低级的工作。下面是我总结的几个方法可以较轻松获得训练数据

对现有的训练数据和标签再利用: 这是最简便和便宜的方法，前提是新的问题数据需求和原来的数据需求相似。在采用这个办法时，可以采用迁移学习的方法来确定训练数据源哪些可以复用在新的模型上
免费渠道的标注训练数据: 比如利用网络爬虫.
探索未标注的免费训练数据:寻找你们领域开源的数据集.
在高质量的数据集上重新训练模型: 你自己的数据可能不足以训练模型。我们建议你可以先在可用的开源数据集上面初步训练模型，然后在比较小的，高质量的标注数据集上重新训练模型。当你获得了更多的标注数据时，在对算法模型进行迭代
外包数据标注服务给专业的训练数据提供商: 你可能没有足够的内部员工帮你标注训练数据. 你可以外包给专业的训练数据服务商比如 sparkapi. 这能确保你快速的获得大量的标注数据，同时因为他们往往使用更专业优化过的标注工具所以往往标注效果优于你自建团队
在网上APP中嵌入标注任务: 在客户常用的APP中嵌入一些图片分类，识别的任务
优化别人训练的模型 M

博客等级

码龄7年

9
原创

74
点赞

199
收藏

73
粉丝

关注

私信

热门文章

分类专栏

分享 16篇

最新评论

基于实例的像素级标注介绍
小徐不爱搞算法: 图片看不到啊
开源语音数据集
LiLi_code: 你好，请问怎么找AHUMADA这个数据集呀
Opencv标注开源工具CVAT介绍和使用心得
任性阿明: 你这是实例分割啊。
Opencv标注开源工具CVAT介绍和使用心得
im just me: 这个标注软件可以获得目标的可见率吗
Opencv标注开源工具CVAT介绍和使用心得
池木、: 你好目前在使用中遇到了三个问题：1、如何修改默认token的过期时间(偶尔会出现保存不成功的情况) 2、如何修改上传文件的大小(目前感觉最大支持上传1G) 3、因为目前是在车辆跟踪项目上使用，所以一辆车在不同场景下的id不一样的话，正常来说这个id修改一次就都变了，现在是要一个个修改

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。