一文浓缩20年：带你了解训练数据发展史

最新推荐文章于 2024-06-26 18:07:43 发布

「已注销」

最新推荐文章于 2024-06-26 18:07:43 发布

阅读量393

点赞数

本文链接：https://blog.csdn.net/duxinshuxiaobian/article/details/99030117

版权

640?wx_fmt=jpeg

全文共1536字，预计学习时长3分钟

640?wx_fmt=jpeg

图片来源：pexels.com/@markusspiske

如今，机器学习受到万千瞩目，但目前科技公司的领导层中却很少有人既具备建构机器学习模型的专业能力，又已经设计出能够大力推动机器学习投入实际运用的机器学习系统。

很多商业大咖都认为，数据与算法一样，是他们个人成功的关键所在。那么，训练数据经过了哪些发展过程？

640?wx_fmt=png

训练数据简史

1. 20年的训练数据史

训练数据的历史里存在妙趣横生的循环。20世纪90年代，机器学习还未主导AI产业，程序员都是根据模型行为来编写硬代码，以改善系统。约20年后，机器学习主导了AI产业，较为相似的“人机回圈”系统开始流行，只不过这次基于模型行为建构训练数据的是非专业的注释员。

而在20世纪90年代到本世纪初这20年间，标注训练数据所需费用高昂，大大限制了机器学习的发展。这导致学术界专注于在相对较少的规范数据集上测试不同算法，而且时至今日这一趋势还未有太大转变。

本世纪前10年后期，亚马逊的MTurk掀起了一股训练数据现收现付的潮流，这改变了人们对训练数据建构的看法。此时学术界也兴起了一场小规模的运动，主动学习崛起为一种人工标注的策略，用于帮助注释员挑选正确的数据。

但这一时期最大的改变并不在于学术界，而在于产业。自那时起，人们在真实世界中构建机器学习模型时，训练数据和算法已经变得同等重要。

在21世纪前5年里还出现了另一个循环——当时的神经元模型也需要大量的训练数据，而且这往往会产生高昂成本。这就导致神经元方法在初创产业的普及应用十分缓慢，除了少数的计算机视觉项目。但这一方法足以大大提高机器学习的精准性，甚至有助于创造新的实用案例。

如今，自适应神经元模型和迁移学习已有所发展，这意味着更小的数据集也可以在机器学习的集中应用中展现出先进性能。

2. 训练数据架构

640?wx_fmt=png

目前训练数据面临的问题

在面对训练数据的不同应用实例时，经常会用到相似的策略，例如，我们需要多少数据？谁来标注比较合适？如何衡量标注质量？是否可以用合成数据或者预先训练过的模型来标注数据，以降低人工注释的薪水成本？在算法方面，如何迅速使模型适应新的标注数据？又如何解释模型的不确定性，以帮助人们在检查中对未标注数据进行正确采样？

算法的建构方式在过去20年里有巨大的演变，训练数据的建构方法也同样发生了翻天覆地的变化。在讨论会上分享这些十分有趣，因为目前在机器学习的圈子里，对训练数据的讨论远远没有对算法的讨论来得广泛。

3. AI多样性如何适应训练数据？

如今一个最大的开放性问题是：AI多样性如何适应训练数据？

在《歧视系统：AI中的性别、种族和权力》这篇文章中，MyersWest、Whittaker和Crawford就AI设计者族群多样的重要性进行了讨论，他们主要聚焦于算法和机器学习模型的创建者。

文章传送门：https://ainowinstitute.org/discriminatingsystems.pdf

如果要延续这一讨论，其实在机器学习中，训练数据领域存在的族群差异更加明显。以算法为中心的技术往往更有利于富人的生活，对于程序员来说，一旦创建的模型投入应用，收入就很可能会增加。但是以训练数据为中心的技术却往往会压榨那些相对不那么富裕的人群的价值，如果你为一个模型建构了训练数据，很可能只会收到一次酬金，但为数据建构算法的程序员却能有源源不断的收入。

20世纪90年代，建构算法的人也同时建构了数据（或称规则），因此必须均等地衡量他们在这两方面的贡献。我希望这也能形成一个循环，以便回归到一个更为公平的产业系统之中，使在训练数据领域创造价值的人们也能获得相应的补偿。

640?wx_fmt=jpeg