2.决策树和随机森林

1.决策树简述

决策树通过树形模型可以对样本进行分类或者回归,模型的非线性性质强,对样本和特征的适应能力比较强。

决策树(DT)著名的有ID3决策树,C4.5决策树,CART决策树。

2.决策树构建准则的介绍

信息熵:代表了随机变量的不确定度的程度,值越大不确定性越大,值越小不确定性越小越准确。

n代表了n个类别,pi代表每个类别出现的概率。

概率p代表属于第i个类别的概率为多少,信息熵就是对所有类别的熵值求和。(对信息求期望)

信息增益(互信息):代表了在某个特征的作用下信息不确定度减少多少,值越大越好。

第二项需要注意是从父节点分到的子节点的熵值乘权重求和。

信息增益比:代表了信息增益乘一个系数,这个参数在信息增益越大系数越小,信息增益越小系数越大

ps:在特征A的条件下组别的熵等于特征A对应值的划分权重乘对应组分的熵值。

系数就是特征A的信息熵分之一,在信息增益越大,特征A把D组分的就越好,求期望后信息熵就越大惩罚就越大!

基尼指数:代表了样本不纯度的大小,值越小越好。

基尼系数度量了样本被二分的不纯度的大小。

K代表是当前组和不是当前组;Pk代表分为正类,(1-Pk代表分为负类)。比较特殊,因为作用于CART二叉树。

ps:这些构建方式具体的计算,李航的统计学习方法P62还有P70页。

2.ID3决策树

决策树构建过程使用信息增益准则来进行,就是从这n个特征中选出一个特征根据该特征的值来构建子节点的过程。

这种准则,决策树模型是很容易过拟合的,因为每次都选择最大的信息增益,那么你就是分类分的太好了,可能这个树只需要几层就把所有数据全都分好了,导致训练误差太小,测试误差太大。

ps:举一个极端的例子,如果你使用ID号来分割样本,那么只要树没有进行任何限制,那么后果就是通过该特征会产生N个子节点,一次性把所有样本全部分好了!

3.C4.5决策树

在ID3决策树上进行了改进,为了防止过拟合,引出了信息增益率就是给信息增益引入了一个惩罚项具体构建过程就是求出平均信息增益比,然后在大于平均信息增益率的特征下找到最大的信息增益的特征,并且选用该特征。

这种准则在一定程度上缓解了过拟合问题。让这棵树学习的更加缓慢细致一点

4.CART决策树

首先对于不管对于分类还是回归都是寻找特征的最好划分点的过程

对于分类问题:在构建决策树过程中使用基尼指数(根据特征的值来二分样本比较不纯度),选基尼系数最小的特征。

ps:根据特征的值,把样本分成两个组,再把每个组进行二分的过程。

对于回归问题:在构建过程中评价准则为均方误差,找出特征的最优切分点,再选出最优的特征即可。

ps:根据特征值排序,找出分割点分成左右两组,最小化左右的均方误差等价于最小化整体的误差,通过最小化来确立预测值(就是平均值),以此值来计算最小的误差值。详细见李航的统计机器学习P149。

ps:对式子化简其实就是平均值的!

5.树的剪支

当数据发生过拟合可以使用剪支的方法,剪支分为预剪支和后剪支。

预剪支:在构建决策树的过程中,先判断在分裂是否会降低验证集的准确度,如果不降低就不分割节点,在递归的判断下一个节点。

后剪支:在构建好决策树后在进行剪支,从底向上选叶子节点的父节点,在判断分裂是否会降低验证集的精准度,如果降低了就把父节点的叶子节点减去,否则就不管,然后再递归的判断下一个叶节点的父节点。

通常预剪支效率高于后剪支;预剪支可能会剪支剪多了带来欠拟合的风险,后剪支比较保守可能性能方面会优于预剪支。

6.连续值的处理和缺失值的处理

连续特征:先把特征值进行排序,然后找分割点分成两组,分别计算两组的最小均方误差这样可以让全局达到最小。

ps:要注意最小误差的计算,还是要求出左右两边的一个预测值,因为是凸函数可以直接求得解析解,让误差达到最小就是求导即可,求出值来带入原式子那么最小均方误差就求出来了。

特征值缺失:第一种是把所有变量都去掉有缺失值的样本进行计算,只需要给最终的结果乘一个系数(无缺失值样本所占比例)。第二种是给所有子节点都以不同权重划分有缺失值的样本(全权重为有该属性的数量占总数的比例),无缺失值的样本权重都为1。

Bagging和随机森林

Bagging是生成T个学习器,每次随机有放回取样m个样本用这m个样本进行训练一个学习器,而且这样随机有放回的选择样本只能保证样本的百分之63.2被选中,剩下的样本会选不中(常常称为袋外数据OOB),这恰好可以用作测试样本。

随机森林在Bagging的基础上对特征使用了随机有放回采样的方式,比如:每次选择k个特征(最好是给特征总数取log),用这k个特征构建决策树,每次选择一个最优的特征进行划分即可。随机森林的基学习器只能是决策树。

ps:Bagging通过使用了行采样并且进行模型集成降低了过拟合(借鉴大数定理);随机森林在bagging的基础上对行和列都进行了采样更好的处理了过拟合的问题。很大程度上两种算法都一定程度的解决过拟合,泛化能力的问题。

ps:大数定理,假设样本独立同分布,通过对方差取平均,发现当n趋于无穷大那么整体的方差会趋于无穷小。这样做可以有效的降低了方差,防止模型的过拟合。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值