数据标注平台分析与使用经验

最近在做语音类的深度学习项目,手上有1000小时的数据需要标注,公司内部雇人标注是不太现实的,人员管理起来太麻烦,再加上项目比较紧急,所以找了几家数据标注平台,下面简单介绍一下吧。

什么是数据标注平台

众所周知,数据标注得越精准、对算法模型训练的效果就越好。大部分算法在拥有足够多普通标注数据的情况下,能够将准确率提升到 95%,但从 95% 再提升到 99% 甚至 99.9% ,就需要大量高质量的标注数据。可以说,高质量的数据是制约模型和算法突破瓶颈的关键指标。正是由于数据标注的重要性,在AI产业的上游已经形成了一条数据标注产业链。

数据标注产业链主要由3方组成,1是标注需求方;2是数据标注平台,一般可以开发标注工具;3是标注团队、公会,活跃于各大标注平台。需求方向标注平台提出需求后,平台去开发工具,寻找合适的标注公会,标注完成后交付。

几家数据标注平台

  1. 京东众智
    京东众智反馈速度比较快,在官网上提交需求后下午就有客户经理给我打电话,2天就完成标注工具开发和试标了。因为我们这个项目比较关注数据安全,他们给过来数据隔离的方案,简单地说就是标注工具和语音数据资源都在我们的服务器,人员管理和答题流程等在众智的服务器。
  2. 百度众包
    在贴吧上看到百度众测比较老牌了,标注类型也非常全面。对于我们公司这种情况他们也能像京东众智那样提供私有化部署,但是人员管理、结算等等都是麻烦问题。
  3. 阿里数据标注
    一开始以为这家标注平台是阿里的,毕竟京东百度都有,我想阿里也应该有吧?后来才发现在官网首页最下面有一行小字:【特别说明:阿里标注与阿里集团无任何直接关系】。哈哈哈哈哈哈哈差点被骗
  4. 龙猫数据
    这家是个数据服务商,数据各方面的服务都有做,包括数据买卖、采集、标注等等。这家平台在百度搜索上做了SEM,估计是下了本钱的,报价也稍微高一些。最终没有选择这家平台的原因是安全性不太好保证,毕竟公司比较小,而且还做数据买卖,真的有点担心。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值