从数据采集与标记行业看数据与深度学习之关系


1.数据规模

先看数据规模,数据规模与算法模型的容量其实是比较相关的。算法模型的容量越大,就意味着算法能表示相对来说更复杂的关系。当数据规模相对过大时,在训练过程中容易产生欠学习(underfitting)。另一方面,在数据规模相对过小的情况下,就会产生过学习(overfitting)。

BasicFinder 标注平台数据科学家吴昊:从数据采集与标记行业看数据与深度学习之关系(分享总结)

近年来流行的深度学习模型可以拥有非常大的容量,模型中普遍用的神经网络算法,层数可以增加,每层神经元个数可以增加,那么模型的表达能力也会增加。下图是一个例子。此外学术界也会做一些新的研究来增加模型的表达能力。另一方面得益于GPU,比较复杂模型的训练也会比以前快很多。

BasicFinder 标注平台数据科学家吴昊:从数据采集与标记行业看数据与深度学习之关系(分享总结)


现在有一个问题,数据更多的话效果就会更好,那么究竟有多好呢?Google的一遍论文解决了这个问题。
BasicFinder 标注平台数据科学家吴昊:从数据采集与标记行业看数据与深度学习之关系(分享总结)
这个数据集是ImageNet的两百多倍。随着数据集里样本数量的增多,在COCO上的结果比用之前的数据集至少高出三个点,而在算法的其他方面都没有太多变化。可以看到数据规模的增大对算法的效果提升还是比较明显的。
BasicFinder 标注平台数据科学家吴昊:从数据采集与标记行业看数据与深度学习之关系(分享总结)

在工业界,数据规模更容易成为算法研发的关键因素。如果有更多的数据,就可以使用容量更大、更复杂的模型,得到效果更好的算法。当数据大到一定程度,数据和算法之间可以进行反复迭代,形成壁垒,为公司提供竞争力。
BasicFinder 标注平台数据科学家吴昊:从数据采集与标记行业看数据与深度学习之关系(分享总结)

2.数据质量

数据质量会影响算法效果。

对于质量一般的数据,比如经过爬虫得来的数据,经过清洗、处理后,算法效果会有明显提升。如果数据质量已经很高了,再去提升数据质量,算法效果的提升比较有限。

另外还要考虑到成本和收益的权衡问题:想获得质量更高的数据,成本也会更高。

BasicFinder 标注平台数据科学家吴昊:从数据采集与标记行业看数据与深度学习之关系(分享总结)

数据质量评估主要包括两个方面,一是原始采集数据质量,二是数据标注质量。

下面是对原始采集数据质量的评估:

  • 图像、视频:分辨率,清晰度,光照,色彩等

  • 语音:清晰度,背景音等

  • 文本:是否自然语言,是否专业,与主题相关性等

下面是对数据标注质量的评估:

  • 标注正确率(类别数据)

  • 标注精确度(坐标、时间点、个数、文字等)

  • 标注完备性(是否漏,是否重复)

  • 标注一致性(前后规则是否一致)

人工标记的大规模数据一般都会含有噪声,一些经典数据集也含有噪声,例如人脸LFW、MS COCO等,这是不可避免的,不过在可以接受的限度内就行。 

BasicFinder 标注平台数据科学家吴昊:从数据采集与标记行业看数据与深度学习之关系(分享总结)

3.无监督学习与迁移学习

接下来谈一下无监督学习与迁移学习,迁移学习已经有一个比较大的数据集作为基础了,再用人工标注一小部分新数据。

对于无监督学习,基本上不需要人工标注,主要是学习数据本身的分布特性。比如说聚类算法,就是试图找出数据集中分布的中心,所以不太需要人工标注。

目前工业界相对来说比较好的结果还是通过监督学习而来,很多都需要大量人工标注的数据。无监督学习和迁移学习在未来还是有待学术界研究,以望更大的突破。另外,在未来数据规模进一步提升的情况下,无监督学习和迁移学习会有更多的用武之地。

BasicFinder 标注平台数据科学家吴昊:从数据采集与标记行业看数据与深度学习之关系(分享总结)

4.数据准备方面的一些经验

数据准备最开始是数据获取,数据的获取也分为几种情况,比较常见的是互联网公开获取(公开数据集、爬虫等),除此之外还有专业数据采集。在专业数据采集时,需要考虑采集方式:一是采集内容、采集规模、预算;二是采集过程要尽量与实际使用场景相一致;三是要考虑对数据集的要求,比如多样性;四是采集是否涉及隐私、个人权利如肖像权、著作权等。

最后还有采集时间的要求。

BasicFinder 标注平台数据科学家吴昊:从数据采集与标记行业看数据与深度学习之关系(分享总结)

然后是数据清洗。采集来的数据很多都需要清洗,例如爬虫、监控视频等。

数据清洗之后就要进行数据标注,标注的规则要尽可能地详尽、清楚,需要给出文档和例子。专业的标注过程,一般有试标阶段,这个阶段需要详细了解并确定需求。此外,在试标和正式标注过程中也会遇到不确定的情况,需要及时进行沟通,否则可能会影响到整体标注质量。

对于数据标注的方式,以及最终的输出格式,都需要算法研发人员来制定,有可能的话还是尽量使用常见的方式和格式。

BasicFinder 标注平台数据科学家吴昊:从数据采集与标记行业看数据与深度学习之关系(分享总结)

数据标记完之后就是数据审查。做审查主要参考对数据质量的要求(正确率、精确度、完备性、一致性等)。审查方式有抽查、排查特殊指标、利用某些特征排查异常值这几种。

BasicFinder 标注平台数据科学家吴昊:从数据采集与标记行业看数据与深度学习之关系(分享总结)

结论如下:对于算法来说,数据越多越好、越广越好、越准越好。在现有的情况下,监督学习的效果优于无监督学习/迁移学习。

BasicFinder 标注平台数据科学家吴昊:从数据采集与标记行业看数据与深度学习之关系(分享总结)





  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值