2.决策树和随机森林

最新推荐文章于 2024-01-29 20:20:58 发布

下一秒，待续

最新推荐文章于 2024-01-29 20:20:58 发布

阅读量1.7k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/taka_is_beauty/article/details/87924804

版权

机器学习专栏收录该内容

21 篇文章 0 订阅

订阅专栏

1.决策树简述

决策树通过树形模型可以对样本进行分类或者回归，模型的非线性性质强，对样本和特征的适应能力比较强。

决策树（DT）著名的有ID3决策树，C4.5决策树，CART决策树。

2.决策树构建准则的介绍

信息熵：代表了随机变量的不确定度的程度，值越大不确定性越大，值越小不确定性越小越准确。

n代表了n个类别，pi代表每个类别出现的概率。

概率p代表属于第i个类别的概率为多少，信息熵就是对所有类别的熵值求和。（对信息求期望）

信息增益（互信息）：代表了在某个特征的作用下信息不确定度减少多少，值越大越好。

第二项需要注意是从父节点分到的子节点的熵值乘权重求和。

信息增益比：代表了信息增益乘一个系数，这个参数在信息增益越大系数越小，信息增益越小系数越大。

ps：在特征A的条件下组别的熵等于特征A对应值的划分权重乘对应组分的熵值。

系数就是特征A的信息熵分之一，在信息增益越大，特征A把D组分的就越好，求期望后信息熵就越大惩罚就越大！

基尼指数：代表了样本不纯度的大小，值越小越好。

基尼系数度量了样本被二分的不纯度的大小。

K代表是当前组和不是当前组；Pk代表分为正类，（1-Pk代表分为负类）。比较特殊，因为作用于CART二叉树。

ps：这些构建方式具体的计算，李航的统计学习方法P62还有P70页。

2.ID3决策树

决策树构建过程使用信息增益准则来进行，就是从这n个特征中选出一个特征根据该特征的值来构建子节点的过程。

这种准则，决策树模型是很容易过拟合的，因为每次都选择最大的信息增益，那么你就是分类分的太好了，可能这个树只需要几层就把所有数据全都分好了，导致训练误差太小，测试误差太大。

ps：举一个极端的例子，如果你使用ID号来分割样本，那么只要树没有进行任何限制，那么后果就是通过该特征会产生N个子节点，一次性把所有样本全部分好了！

3.C4.5决策树

在ID3决策树上进行了改进，为了防止过拟合，引出了信息增益率就是给信息增益引入了一个惩罚项，具体构建过程就是求出平均信息增益比，然后在大于平均信息增益率的特征下找到最大的信息增益的特征，并且选用该特征。

这种准则在一定程度上缓解了过拟合问题。让这棵树学习的更加缓慢细致一点。

4.CART决策树

首先对于不管对于分类还是回归都是寻找特征的最好划分点的过程。

对于分类问题：在构建决策树过程中使用基尼指数（根据特征的值来二分样本比较不纯度），选基尼系数最小的特征。

ps：根据特征的值，把样本分成两个组，再把每个组进行二分的过程。

对于回归问题：在构建过程中评价准则为均方误差，找出特征的最优切分点，再选出最优的特征即可。

ps：根据特征值排序，找出分割点分成左右两组，最小化左右的均方误差等价于最小化整体的误差，通过最小化来确立预测值（就是平均值），以此值来计算最小的误差值。详细见李航的统计机器学习P149。

ps：对式子化简其实就是平均值的！

5.树的剪支

当数据发生过拟合可以使用剪支的方法，剪支分为预剪支和后剪支。

预剪支：在构建决策树的过程中，先判断在分裂是否会降低验证集的准确度，如果不降低就不分割节点，在递归的判断下一个节点。

后剪支：在构建好决策树后在进行剪支，从底向上选叶子节点的父节点，在判断分裂是否会降低验证集的精准度，如果降低了就把父节点的叶子节点减去，否则就不管，然后再递归的判断下一个叶节点的父节点。

通常预剪支效率高于后剪支；预剪支可能会剪支剪多了带来欠拟合的风险，后剪支比较保守可能性能方面会优于预剪支。

6.连续值的处理和缺失值的处理

连续特征：先把特征值进行排序，然后找分割点分成两组，分别计算两组的最小均方误差这样可以让全局达到最小。

ps：要注意最小误差的计算，还是要求出左右两边的一个预测值，因为是凸函数可以直接求得解析解，让误差达到最小就是求导即可，求出值来带入原式子那么最小均方误差就求出来了。

特征值缺失：第一种是把所有变量都去掉有缺失值的样本进行计算，只需要给最终的结果乘一个系数（无缺失值样本所占比例）。第二种是给所有子节点都以不同权重划分有缺失值的样本（全权重为有该属性的数量占总数的比例），无缺失值的样本权重都为1。

Bagging和随机森林

Bagging是生成T个学习器，每次随机有放回取样m个样本用这m个样本进行训练一个学习器，而且这样随机有放回的选择样本只能保证样本的百分之63.2被选中，剩下的样本会选不中（常常称为袋外数据OOB），这恰好可以用作测试样本。

随机森林在Bagging的基础上对特征使用了随机有放回采样的方式，比如：每次选择k个特征（最好是给特征总数取log），用这k个特征构建决策树，每次选择一个最优的特征进行划分即可。随机森林的基学习器只能是决策树。

ps：Bagging通过使用了行采样并且进行模型集成降低了过拟合（借鉴大数定理）；随机森林在bagging的基础上对行和列都进行了采样更好的处理了过拟合的问题。很大程度上两种算法都一定程度的解决过拟合，泛化能力的问题。

ps：大数定理，假设样本独立同分布，通过对方差取平均，发现当n趋于无穷大那么整体的方差会趋于无穷小。这样做可以有效的降低了方差，防止模型的过拟合。

下一秒，待续

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
2.决策树和随机森林

1.决策树简述决策树通过树形模型可以对样本进行分类或者回归，模型的非线性性质强，对样本和特征的适应能力比较强。决策树（DT）著名的有ID3决策树，C4.5决策树，CART决策树。2.决策树构建准则的介绍信息熵：代表了随机变量的不确定度的程度，值越大不确定性越大，值越小不确定性越小越准确。n代表了n个类别，pi代表每个类别出现的概率。概率p代表属于第i个类别的概率为多少，信息...
复制链接

扫一扫

专栏目录

下一秒，待续 CSDN认证博客专家 CSDN认证企业博客

码龄6年

122: 原创

5万+: 周排名

226万+: 总排名

13万+: 访问

: 等级

2212: 积分

74: 粉丝

79: 获赞

30: 评论

371: 收藏

私信

关注

热门文章

分类专栏

最新评论

微服务框架之SpringBoot分析
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性；(3)使用更多的站内链接。
Hadoop之HBase基本简介
CSDN-Ada助手: 使用分布式 sqlite 能搞大数据不？
Hadoop之MapReduce基本简介
在线大学生，有工作请找我谢谢: 作者大大
微服务框架之SpringClound
CSDN-Ada助手: 你的文章质量不错，值得学习！但还有一点小瑕疵，具体如下：(1)使用标准目录。
日志系统学习与应用治理实践
TTianbo123: 博主的技术面很广哦，而且都是干货文章，小菜鸟求带，可以加你微信随时和您交流吗，感谢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。