随机森林和决策树

随机森林

森林里有很多树,随机森林里有很多决策树。
随机森林是决策树的升级版,随机指的是树的生长过程,世界上没有两片相同的树叶,随机森林中的树也各不相同,在构建决策树时,我们会从训练数据中有放回的随机选取一部分样本,同样的我们也不会选取数据的全部特征,而是随机选取部分特征进行训练。
在这里插入图片描述每棵树使用的样本和特征各不相同,训练的结果自然也不同。为什么要这么做?在训练的最初,我们并不知道哪些是异常样本,也不知道哪些特征对训练的结果影响更大,随机的过程降低了两者对分类结果的影响。
随机森林的输出结果由投票决定,如果大部分决策树认为测试数据是好苹果,那我们就认为它是个好苹果。这很像是人类的民主决策,虽然每个人拥有的信息、推理过程和结论各不相同,但每个人都拥有投票权时,往往能做出较优的决策。
在这里插入图片描述
因为树与树之间的独立,它们可以同时训练,不需要花费太长时间,随机的过程让它不容易过拟合,能处理特征较多的高维数据,也不需要做特征选择,合理训练后准确性很高,不知道使用什么方法事务,先使用随机森林准没错。
在机器学习中,随机森林属于集成学习,也就是将多个模型组合起来解决问题,这些模型会独立学习、预测、再投票得出结果,准确度往往比单独的模型高很多。
在这里插入图片描述除了决策树还可以使用神经网络的其他模型,同样的,集成学习内部不必是同样的模型,神经网络和决策树可以共存于一个系统中。
在这里插入图片描述

决策树

在冒险游戏中遭遇敌人,是攻击还是逃跑?如果是攻击,是选择普通的物理攻击还是魔法攻击,为达到目标根据一定的条件进行选择的过程,就是决策树。
决策树模型非常经典,在机器学习中常用作分类,构成它的元素是节点和边,节点会根据样本的特征做出判断,最初的分支点被称为“根节点”,其余的被称为子节点,不再有分支的节点称为叶子节点,它们代表样本的分类结果,边则指示着方向。

在这里插入图片描述那么特征这么多,谁来做根节点,接下来的节点又该是什么?为了构建决策树,人们找到一个衡量标准,“熵”。在热力学中,熵被用来描述一个系统内部的混乱程度,在决策树中,熵代表是分支下样本种类的丰富性。
样本种类越多越混乱,熵就越大。如果分支下的样本完全属于同一类,熵就等于0。
构造树的基本思路,是随着树的深度,也就是层数的增加,让熵快速降低,熵降低的速度越快,代表决策树分类效率越高。
决策树最大的优点是天然的可解释性。苹果之所以是好苹果,是因为它又大又红又甜,它的缺点也很明显,数据都是有特例的,如果一棵树能将训练样本完美分类,那它一定是过拟合的,解决的方法很简单,去掉一些分支,“剪枝”有两种,预剪枝是在训练开始前规定条件,比如树达到某一深度就停止训练;后剪枝是先找到树,再依据一定条件如限制叶子节点的个数,去掉一部分分支。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值