从数据采集与标记行业看数据与深度学习之关系

最新推荐文章于 2025-01-27 13:22:19 发布

BayBay1221

最新推荐文章于 2025-01-27 13:22:19 发布

阅读量8.5k

点赞数 1

分类专栏：机器视觉

本文链接：https://blog.csdn.net/hebeibaishuang11/article/details/78515245

版权

机器视觉专栏收录该内容

13 篇文章

订阅专栏

1.数据规模

先看数据规模，数据规模与算法模型的容量其实是比较相关的。算法模型的容量越大，就意味着算法能表示相对来说更复杂的关系。当数据规模相对过大时，在训练过程中容易产生欠学习（underfitting）。另一方面，在数据规模相对过小的情况下，就会产生过学习（overfitting）。

BasicFinder 标注平台数据科学家吴昊：从数据采集与标记行业看数据与深度学习之关系（分享总结）

近年来流行的深度学习模型可以拥有非常大的容量，模型中普遍用的神经网络算法，层数可以增加，每层神经元个数可以增加，那么模型的表达能力也会增加。下图是一个例子。此外学术界也会做一些新的研究来增加模型的表达能力。另一方面得益于GPU，比较复杂模型的训练也会比以前快很多。

BasicFinder 标注平台数据科学家吴昊：从数据采集与标记行业看数据与深度学习之关系（分享总结）

现在有一个问题，数据更多的话效果就会更好，那么究竟有多好呢？Google的一遍论文解决了这个问题。

这个数据集是ImageNet的两百多倍。随着数据集里样本数量的增多，在COCO上的结果比用之前的数据集至少高出三个点，而在算法的其他方面都没有太多变化。可以看到数据规模的增大对算法的效果提升还是比较明显的。

在工业界，数据规模更容易成为算法研发的关键因素。如果有更多的数据，就可以使用容量更大、更复杂的模型，得到效果更好的算法。当数据大到一定程度，数据和算法之间可以进行反复迭代，形成壁垒，为公司提供竞争力。

2.数据质量

数据质量会影响算法效果。

对于质量一般的数据，比如经过爬虫得来的数据，经过清洗、处理后，算法效果会有明显提升。如果数据质量已经很高了，再去提升数据质量，算法效果的提升比较有限。

另外还要考虑到成本和收益的权衡问题：想获得质量更高的数据，成本也会更高。

数据质量评估主要包括两个方面，一是原始采集数据质量，二是数据标注质量。

下面是对原始采集数据质量的评估：

图像、视频：分辨率，清晰度，光照，色彩等

语音：清晰度，背景音等

文本：是否自然语言，是否专业，与主题相关性等

下面是对数据标注质量的评估：

标注正确率（类别数据）

标注精确度（坐标、时间点、个数、文字等）

标注完备性（是否漏，是否重复）

标注一致性（前后规则是否一致）

人工标记的大规模数据一般都会含有噪声，一些经典数据集也含有噪声，例如人脸LFW、MS COCO等，这是不可避免的，不过在可以接受的限度内就行。

BasicFinder 标注平台数据科学家吴昊：从数据采集与标记行业看数据与深度学习之关系（分享总结）

3.无监督学习与迁移学习

接下来谈一下无监督学习与迁移学习，迁移学习已经有一个比较大的数据集作为基础了，再用人工标注一小部分新数据。

对于无监督学习，基本上不需要人工标注，主要是学习数据本身的分布特性。比如说聚类算法，就是试图找出数据集中分布的中心，所以不太需要人工标注。

目前工业界相对来说比较好的结果还是通过监督学习而来，很多都需要大量人工标注的数据。无监督学习和迁移学习在未来还是有待学术界研究，以望更大的突破。另外，在未来数据规模进一步提升的情况下，无监督学习和迁移学习会有更多的用武之地。

BasicFinder 标注平台数据科学家吴昊：从数据采集与标记行业看数据与深度学习之关系（分享总结）

4.数据准备方面的一些经验

数据准备最开始是数据获取，数据的获取也分为几种情况，比较常见的是互联网公开获取（公开数据集、爬虫等），除此之外还有专业数据采集。在专业数据采集时，需要考虑采集方式：一是采集内容、采集规模、预算；二是采集过程要尽量与实际使用场景相一致；三是要考虑对数据集的要求，比如多样性；四是采集是否涉及隐私、个人权利如肖像权、著作权等。

最后还有采集时间的要求。

BasicFinder 标注平台数据科学家吴昊：从数据采集与标记行业看数据与深度学习之关系（分享总结）