常见机器学习模型(二)——决策树与随机森林

决策树与随机森林并不能算得上是一种模型,它只能说是一种方法。常见的决策树算法有C4.5、ID3和CART。先来看一些预备知识。

信息、熵、信息增益、基尼系数

信息

通信领域的里程碑式的人物香农提出:信息是用来消除随机不确定性的东西。这句话你可以倒过来理解:用来消除随机不确定性的东西才叫信息。

对于机器学习中的决策树而言,如果待分类的事物集合可以划分为多个类别当中,则某个类(xi)的信息可以定义为:

image-20200804083653949

熵是约翰.冯.诺依曼建议使用的命名,熵=信息的期望值:

image-20200804083745967

熵用来度量不确定性的,当熵越大,X=xi的不确定性越大

信息增益

信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好:

image-20200804083858865

原有树的熵 H(D) 增加了一个分裂节点,使得熵变成了H(D|A)。

信息增益越大,不确定性越小。

基尼系数

基尼系数用来表征数据的纯度。基尼值越大,数据越不纯(也可以理解成不确定性越大),分类起来就越困难。

image-20200804085453396

决策树

决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。决策树是一种基本的分类和回归方法,学习通常包含三个步骤:特征选择、决策树的生成和决策树的剪枝。

决策树基本上就是把我们以前的经验总结出来为将来做决策的过程。

上面我们所说的熵、信息增益、基尼系数就是我们用来选择分支的准则(或者说考核指标)。

可以看一张西瓜书上的图:

image-20200804091046268

具体计算过程可以参见周志华《机器学习》4.2章节,不再赘述。大概过程就是根据现有信息计算信息熵和信息增益,将信息增益大的判据作为当前的根节点,继续向下计算新一轮的信息增益以确定一级叶子节点与次级叶子节点。就如上图中我们为什么选择“纹理”作为根节点,就是因为根据原始数据我们计算出他的信息增益更大,依此类推,我们可以确定每一级的节点形态。

随机森林

随机森林就是拿多个决策树组合起来做决策的一种方法。它基于一个条件:森林中的每棵树都是独立的。主要是利用了Bagging的思想:

Bagging思想,将若干个弱分类器的分类结果进行投票选择,从而组成一个强分类器。这样做会比一个单独的强分类器的效果好,是因为单个强分类器容易过拟合。PS.一般层数较深的就是强分类器,层数较浅的就是弱分类器。

Bagging不用单棵决策树来做预测,增加了预测准确率,即不容易过拟合,减少了预测方差。

随机森林的生成:

如果训练集大小为N,对于每棵树而言,随机且有放回地从训练集中的抽取N个训练样本(采样方式称为bootstrap sample)(极端情况N次都采样到0号样本),作为该树的训练集。每棵树的训练集都是不同的,而且里面包含重复的训练样本。

如果每个样本的特征维度为M,指定一个常数m<<M,随机地从M个特征中选取m个特征子集,每次树进行分裂时,从这m个特征中选择最优的。每棵树都尽最大程度的生长,没有剪枝过程。

随机森林分类效果(错误率):

森林中任意两棵树的相关性:相关性越大,错误率越大。

森林中每棵树的分类能力:每棵树的分类能力越强,整个森林的错误率越低。

特征选择个数m(随机森林的参数):

m越大,树的相关性和分类能力会相应提升,如何选择最优的m是关键问题。

PS,后续补充:
随机森林构造:
1.从样本集中通过重采样(随机有放回)的方式产生n个样本
2.假设样本特征数目为a,对n个样本选择a中的k个特征,用建立决策树的方式获得最佳分割点
3.重复m次,产生m棵决策树
4.多数投票机制来进行预测
(需要注意的一点是,这里m是指循环的次数,n是指样本的数目,n个样本构成训练的样本集,而m次循环中又会产生m个这样的样本集)

可以参考的文章:

超详细的信息熵、信息增益、信息增益比、基尼系数

机器学习利器——决策树和随机森林

决策树与随机森林学习笔记

决策树(DecisionTree)和随机森林(Random Forests)

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值