独家 | 集成学习入门介绍


作者:Jason Brownlee

翻译:wwl

校对:王琦

本文约3300字,建议阅读8分钟。

本文介绍了我们在生活中的许多决定包括了其他人的意见,由于群体的智慧,有的时候群体的决策优于个体。在机器学习领域也存在集成学习,整合多个模型的结果,降低预测结果的方差。

 

生活中我们做的许多决定都是基于其他人的意见。这包括,通过书评来决定阅读哪一本书;根据多位医生的建议决定选择哪个治疗方案;以及定罪。

 

一般地,一群人共同决策的结果比团队中每个个体单独做决策带来的结果更优。这通常被视为是群体的智慧。

 

对于回归和分类的预测建模问题,通过把多个机器学习的预测模型组合起来,也可以达到类似的结果。这通常叫做集成机器学习,简称集成学习

 

通过本文,你可以掌握有关集成学习的入门介绍。你将了解到:

  • 我们做的许多决定都包含了其他人的意见或投票。

  • 群体决策效果比个人更好,这被称为群体的智慧。

  • 集成机器学习把多个成熟的模型预测结果组合起来。

我们开始吧!

 

总览

本教程包含三部分:

1、 做重要决策

2、 群体的智慧

3、 集成机器学习

 

做重要决策

想一想生活中,你做的重要的决策。比如说:

  • 买什么书和接下来阅读什么书?

  • 参加哪所大学?

候选的书都听起来很有趣,但我们实际购买的可能是有最多好评的那一本。候选的大学都可以提供我们感兴趣的课程,但最终的选择会基于有一手消息的朋友和熟人的反馈。

 

我们可能会相信有关这些书籍的评论和星级评级,因为每个人都提供了一个评论,用户跟这个书没有关系(希望如此),且独立于其他人留下的评论。如果不是这样的话,对结果的信任就会受到质疑,对系统的信任也会动摇,这就是为什么亚马逊努力删除图书的虚假评论。

 

另外,想一下更私人的一些重要决定。比如说有关疾病的治疗。我们听取一个专家的建议,但我们还会寻觅第二个、第三个,甚至更多意见,以确保可以得到最好的治疗方案。 

 

来自第二个、第三个专家的意见可能和第一个的意见相同也可能相悖,但因为他们的意见都是冷静、客观、独立的,因此会给予重视。但如果专家之间串通了意见,那么寻找第二个、第三个专家意见的过程就没有意义了。

 

“当面临重要决策时,我们通常会寻求不同专家的意见来帮助我们做出决策。”

— Page 2, Ensemble Machine Learning, 2012.

https://amzn.to/2C7syo5

 

最后,想一想有关社会决策。比如说,谁应该在政府中代表一个地区;某人是否有罪。

 

代表的民主选举(以某种形式)依赖于民众的独立投票。

 

“基于多人/多位专家的输入做出决策,已经成为人类文明中的普遍实践,是民主社会的基础。”

— Page v, Ensemble Methods, 2012.

 https://amzn.to/2XZzrjG

 

严重犯罪的定罪可以由独立的同行组成的陪审团来确定,陪审团通常被隔离以加强其解释的独立性。案件也可以在多层次上上诉,根据结果提供第二、第三和更多意见。

 

“大多数国家的司法体系,无论是基于陪审团还是法官团,都是以集体决策为基础。”

— Pages 1-2, Ensemble Machine Learning, 2012.

 

以上都是通过结合较低级别的意见、投票或决策而获得结果的例子。

“集成决策并不是新鲜事了,在日常中,这样的体系使用得很频繁,以至于这对于我们来说可能是第二天性。”

— Page 1, Ensemble Machine Learning, 2012.

 

在每种情况下,为了结果的有效性,这些低水平的决策需要具备一些特性,比如它们的独立性以及每个决策的一定的有效性。

 

这种决策方法应用很普遍,它有一个名字。

 

群体的智慧

这种基于群体的低水平决策来进行最终决策的方法通常被称为“群体的智慧”。

 

它是这样的情况,即相对于群体中单个个体的决定,集合了群体中所有人的意见的结果通常更为准确、有效、以及正确。

 

100多年前的一个著名的例子就是在英国普利茅斯的一个集市上举行的一次估计公牛体重的比赛,每个人都做出了自己的猜测,猜测最接近实际体重的人赢得了肉。统计学家Francis Galton后来收集了所有猜测的数据并计算了平均值。

“他把所有参赛者的估测进行了加和并计算了平均数。”你可以说,这个数字代表了普利茅斯民众的集体智慧。如果人群是一个人的话,它就能猜出这头牛的重量。“

— Page xiii, The Wisdom of Crowds, 2004.

 https://amzn.to/2UNOMll

他发现所有参赛者的猜测的平均值非常接近于真实的重量。也就是说,统计800位参赛者估算重量的平均值是一种猜测公牛真实重量的准确方法。

 

“群众猜测,这头牛在被屠宰和剥皮后,重1197磅。这头牛被宰杀和剥皮后,重1198磅。换句话说,群众的判断基本上是完美的。“

— Page xiii, The Wisdom of Crowds, 2004.

 

这个例子是James Surowiecki’s 2004年出版的名叫 “The Wisdom of Crowds”  的书开头给出的,这本书探讨了人类群体做出的决策和预测往往群体成员更好。

 

“这种智慧,或者我称之为“群体智慧”,在世界上以许多不同的形式在发挥作用。“

— Page xiv, The Wisdom of Crowds, 2004.

 

这本书促使人们在做重要决策时,借鉴来自群体的猜测、投票和意见,而不是仅仅向一个专家寻求咨询。

 

“我们感到有必要去追逐专家“,但这本书认为追逐专家是一个错误,并且代价高昂。我们应当停止追逐,转而问问大众(当然,既包括天才也包括普通人)。

— Page xv, The Wisdom of Crowds, 2004.

 

Lior Rokach’s 2010年出版的名为 “Pattern Classification Using Ensemble Methods” 的书的第 22页完美地总结了基于群体做出决策的系统的一些特性:

  • 意见多样性:每个人都应该拥有私人的信息,即便是它只是对已知事实的一种古怪的解释。

  • 独立性:每个人的意见并不受其他人的影响。

  • 去中心化:每个人可以根据自身的知识进行专门研究来得出结论。

  • 集成化:存在一些机制可以把个体的判断转变为群体决策。

作为一个决策系统,这种方法并不总是最有效的(例如股市泡沫、时尚等),但在一些结果导向的不同领域中可能是有效的。

 

我们可以在应用机器学习中使用这种方法来进行决策。

 

集成机器学习

应用机器学习通常包括基于数据集的模型拟合和模型效果评估。

 

由于我们无法提前预料到哪个模型在这个数据集上表现最好,因此在得到最优模型前,我们可能会进行许多的试错。

 

这类似通过追逐单一专家的决策方式。也许是我们可以找到的最好的专家。

 

另一种互补的方法是准备多个不同的模型,并把它们的预测结果整合起来。这被称为集成机器学习或者简单来讲是集成,这种寻找表现好的集成模型的过程称作集成学习。

 

“集成方法学模仿我们的第二天性,在做出关键决策之前先征求几个意见。”

— Page vii, Pattern Classification Using Ensemble Methods, 2010.

 https://amzn.to/2zxc0F7

这和寻求多位专家意见是相似的。

 

最常见的集成类型是训练同一机器学习模型的多个版本,以确保每个集成成员都是不同的(例如决策树模型在训练集的不同子集上训练),然后使用平均值或投票法组合预测。

 

一种不太常见但同样有效的方法是在相同的数据上训练不同的算法(例如决策树、支持向量机和神经网络),并组合它们的预测。

 

就像在人群中综合个体的观点一样,集成的有效性依赖于每个模型都具有某种特性(比随机性更好),并且与其他模型具有一定的独立性。后一点通常被解释为集成中的成员模型都在不同的地方有不同于其他模型的优势。

 

希望集成后可以得到比任何一个有贡献的模型更好的模型。

 

“核心原则是给予单独的分类器一定权重,然后把它们组合起来以得到一个比任何单独的分类器更好的分类器”

— Page vii, Pattern Classification Using Ensemble Methods, 2010.

 

至少,集成的模型限制了最坏的情形出现,通过降低预测的波动。通常随着训练集的不同,模型的表现会发生变化,从而使得单一的模型的表现时好时坏。

 

“集成系统的目标是通过创建几个具有相对固定的或相似的偏差的分类器,然后结合它们的输出,比如对输出进行平均以减小方差。”

— Page 2, Ensemble Machine Learning, 2012.

 

集成可以减小方差,并且确保做出的预测更接近有贡献的成员模型的平均表现。另外,预测方差的减小也导致了整体技能的提升,相比于维护单个模型,增加了拟合、维护多个模型的成本。

 

尽管集成模型方差更小,但并不一定模型效果会比任何成员模型更好。

 

“计算智能和机器学习社区的研究人员已经研究了共享这种联合决策过程的方案。这些方案通常被称为集成学习,它可以减少分类器的方差,提高决策系统的鲁棒性和准确性。”

— Page v, Ensemble Methods, 2012.

 

有的时候,表现最好的模型,类似于一个最好的专家,相比于其它模型已经足够优秀的时候,把这个模型的预测和其他模型整合起来得到的结果,会比最好的那个模型要差。

 

因此,选择模型,甚至是集成模型,仍然需要在健壮性的测试工具上进行精心控制的实验。

 

扩展阅读

如果你想继续研究,这个部分提供了一些相关资源。

书籍

  • The Wisdom of Crowds, 2004.

  • Pattern Classification Using Ensemble Methods, 2010.

  • Ensemble Methods, 2012.

  • Ensemble Machine Learning, 2012.

文章

  • Ensemble learning, Wikipedia.

  • Ensemble learning, Scholarpedia.

  • Wisdom of the crowd, Wikipedia.

  • The Wisdom of Crowds, Wikipedia.

总结

本文帮助你对集成学习建立了初步的了解。

其中,你可以学习到:

  • 我们做的许多决定包含了其他人的意见或投票。

  • 群体的决策优于个体,被叫做群体的智慧。

  • 集成机器学习是把多个成熟模型的预测结果组合起来。

原文链接:

https://machinelearningmastery.com/what-is-ensemble-learning/

原文标题:

A Gentle Introduction to Ensemble Learning

编辑:于腾凯

校对:林亦霖

译者简介

wwl

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~


转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值