一文浓缩20年:带你了解训练数据发展史


640?wx_fmt=jpeg


全文共1536字,预计学习时长3分钟


640?wx_fmt=jpeg

图片来源:pexels.com/@markusspiske


如今,机器学习受到万千瞩目,但目前科技公司的领导层中却很少有人既具备建构机器学习模型的专业能力,又已经设计出能够大力推动机器学习投入实际运用的机器学习系统。

 

很多商业大咖都认为,数据与算法一样,是他们个人成功的关键所在。那么,训练数据经过了哪些发展过程?


640?wx_fmt=png

训练数据简史


1. 20年的训练数据史


训练数据的历史里存在妙趣横生的循环。20世纪90年代,机器学习还未主导AI产业,程序员都是根据模型行为来编写硬代码,以改善系统。约20年后,机器学习主导了AI产业,较为相似的“人机回圈”系统开始流行,只不过这次基于模型行为建构训练数据的是非专业的注释员。


而在20世纪90年代到本世纪初这20年间,标注训练数据所需费用高昂,大大限制了机器学习的发展。这导致学术界专注于在相对较少的规范数据集上测试不同算法,而且时至今日这一趋势还未有太大转变。


本世纪前10年后期,亚马逊的MTurk掀起了一股训练数据现收现付的潮流,这改变了人们对训练数据建构的看法。此时学术界也兴起了一场小规模的运动,主动学习崛起为一种人工标注的策略,用于帮助注释员挑选正确的数据。


但这一时期最大的改变并不在于学术界,而在于产业。自那时起,人们在真实世界中构建机器学习模型时,训练数据和算法已经变得同等重要。


在21世纪前5年里还出现了另一个循环——当时的神经元模型也需要大量的训练数据,而且这往往会产生高昂成本。这就导致神经元方法在初创产业的普及应用十分缓慢,除了少数的计算机视觉项目。但这一方法足以大大提高机器学习的精准性,甚至有助于创造新的实用案例。


如今,自适应神经元模型和迁移学习已有所发展,这意味着更小的数据集也可以在机器学习的集中应用中展现出先进性能。


2. 训练数据架构


640?wx_fmt=png

目前训练数据面临的问题


在面对训练数据的不同应用实例时,经常会用到相似的策略,例如,我们需要多少数据?谁来标注比较合适?如何衡量标注质量?是否可以用合成数据或者预先训练过的模型来标注数据,以降低人工注释的薪水成本?在算法方面,如何迅速使模型适应新的标注数据?又如何解释模型的不确定性,以帮助人们在检查中对未标注数据进行正确采样?


算法的建构方式在过去20年里有巨大的演变,训练数据的建构方法也同样发生了翻天覆地的变化。在讨论会上分享这些十分有趣,因为目前在机器学习的圈子里,对训练数据的讨论远远没有对算法的讨论来得广泛。


3. AI多样性如何适应训练数据?


如今一个最大的开放性问题是:AI多样性如何适应训练数据?


在《歧视系统:AI中的性别、种族和权力》这篇文章中,MyersWest、Whittaker和Crawford就AI设计者族群多样的重要性进行了讨论,他们主要聚焦于算法和机器学习模型的创建者。


文章传送门:https://ainowinstitute.org/discriminatingsystems.pdf


如果要延续这一讨论,其实在机器学习中,训练数据领域存在的族群差异更加明显。以算法为中心的技术往往更有利于富人的生活,对于程序员来说,一旦创建的模型投入应用,收入就很可能会增加。但是以训练数据为中心的技术却往往会压榨那些相对不那么富裕的人群的价值,如果你为一个模型建构了训练数据,很可能只会收到一次酬金,但为数据建构算法的程序员却能有源源不断的收入。


20世纪90年代,建构算法的人也同时建构了数据(或称规则),因此必须均等地衡量他们在这两方面的贡献。我希望这也能形成一个循环,以便回归到一个更为公平的产业系统之中,使在训练数据领域创造价值的人们也能获得相应的补偿。


640?wx_fmt=jpeg

留言 点赞 发个朋友圈

我们一起分享AI学习与发展的干货


编译组:莫菲菲、余书敏

相关链接:

https://towardsdatascience.com/a-brief-history-of-training-data-9c513fc95b3e


如需转载,请后台留言,遵守转载规范


推荐文章阅读


ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017 论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾


长按识别二维码可添加关注

读芯君爱你


640?wx_fmt=gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值