关于海量数据集的标签工程的思考

下图是Kaggle官网手机验证识别机器人与否的方式


现状

目前人工智能或者说深度学习赋能各个领域,需要大量的标签化数据集作为支撑,国内现状是聘请大量的人员花费大量人力物力在人工给数据集打标签,这严重影响了数据集的扩充,更加使得数据集的开源收到冲击。国内的网站登录验证方式多是滑块拼图方式,而这种kaggle验证模式,在国外很多大型网站都已经普遍推广开来了。。。

思考

国内的大型网站的登录验证方式是否可以考虑Kaggle类似的模式,让访问者来标记图片,多次标记一类或者多类图片,来达到识别是正常的人类访问,并能够给海量的数据集打标签,真的是一举多得。如此可以解决目前数据集的获取成本变得更低,也让数据集更加具有多样化,符合人类的常规识别等级。虽然要全面推广需要整个行业一起改革,但是完全符合网站各方数据集健全的利益啊,为人工智能赋能各个领域提供了数据基础。

 

有考虑不周全的地方,还请批评指教,希望各位大佬不吝赐教。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值