西瓜书-决策树

最新推荐文章于 2023-08-06 21:54:15 发布

一天一杯养乐多

最新推荐文章于 2023-08-06 21:54:15 发布

阅读量421

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38368548/article/details/97138878

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

伪代码
决策树生成伪代码

决策树生成过程

决策树生成过程就是生成一颗最优的决策树，一般从根节点开始生成，一步一步往下蔓延(递归的过程)。那么选择哪个属性作为根节点呢？这就需要一个判定标准了，说白了就是穷举(无非就是那么几个属性)。
既然是决策点(一般称分支结点)，随着划分的不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即纯度越来越高。

信息熵 information entropy

度量样本集合纯度最常用的一种指标，该值越小则说明样本集合纯度越高，样本集合D的信息熵定义为：
在这里插入图片描述

信息增益 information gain

为了选定哪个属性作为划分结点，可计算各属性值对当前样本集合(划分的进行集合越来越小)进行划分所获得的信息增益

一般而言，信息增益越大，则意味着使用该属性来进行划分所获得的纯度提升越大，因此我们可以用信息增益来进行决策树的划分属性选择，即优先选择信息增益最大的属性作为新的划分结点。

缺点：信息增益准则对可取值数目较多的属性有所偏好

增益率 gain ratio

为了避免信息增益准则偏好于取值数目较多的属性所带来的不利影响，可使用增益率来选择最优划分属性，定义如下

注意

需注意的是，增益率准则对可取值数目较少的属性有所偏好，因此使用时并不是直接选择最大增益率最大的属性，而是：
现从候选划分属性中筛选出信息增益高于平均水平的属性，再从其中选择增益率最高的。

基尼指数

也是一种选择最优划分结点的评价指标，不想写了。。。

剪枝处理 -防止决策树过拟合

预剪枝生成过程中决策是否剪枝

即划分过程中根据以上信息增益、增益率等准则选择划好了属性划分结点时，还有评估是否要接着划分，即加入该划分结点与否对分类精度的影响(验证集上测试)。（划分后的结果选择样本数目最多的类别）
根据精度来进行决策是否加入该划分结点。
缺点：存在欠拟合风险

后剪枝生成决策树后从下至上、从左至右对划分点进行剪枝

也是同样的道理，根据剪枝前后的决策精度来判断是否需要剪掉该决策点
缺点：后剪枝是在生成决策树后进行的，并且需要自底向上地对树中所有非叶结点进行逐一考察，训练时间开销大

总结后剪枝决策树欠拟合风险小，具有更好的泛化性能，但其训练时间开销要大得多。

一天一杯养乐多

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书-决策树

伪代码决策树生成过程决策树生成过程就是生成一颗最优的决策树，一般从根节点开始生成，一步一步往下蔓延(递归的过程)。那么选择哪个属性作为根节点呢？这就需要一个判定标准了，说白了就是穷举(无非就是那么几个属性)。既然是决策点(一般称分支结点)，随着划分的不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即纯度越来越高。信息熵 information entropy度量样本...
复制链接

扫一扫

专栏目录

一天一杯养乐多 CSDN认证博客专家 CSDN认证企业博客

码龄7年

41: 原创

12万+: 周排名

17万+: 总排名

5万+: 访问

: 等级

710: 积分

1: 粉丝

9: 获赞

8: 评论

58: 收藏

私信

关注

热门文章

分类专栏

源码加密 1篇
python 4篇
设计模式 3篇
需求 1篇
Java 1篇
tornado 1篇
language 7篇
秋招刷题 5篇
unbuntu 3篇
机器学习 4篇

最新评论

synchronized 加锁保证线程安全
weixin_43003874: 这个是非线程安全的吧 [code=java] public class AccountingSync implements Runnable{ //共享资源(临界资源) static int i=0; /** * synchronized 修饰实例方法 */ public synchronized void increase(){ i++; } @Override public void run() { for(int j=0;j<1000000;j++){ increase(); } } public static void main(String[] args) throws InterruptedException { AccountingSync instance=new AccountingSync(); Thread t1=new Thread(instance); Thread t2=new Thread(instance); t1.start(); t2.start(); t1.join(); t2.join(); System.out.println(i); } /** * 输出结果: * 2000000 */ } [/code]
Plaidml--MAC+A卡的深度学习方案
一天一杯养乐多: 报错了吧，就是没装成功，要先确保python安装上。
Plaidml--MAC+A卡的深度学习方案
15195867336: 请问为什么我输入plaid-setup 不会跳出下面那些步骤呢？
判断单链表是否为回文
Tisfy: 十分完美，正如：我欲乘槎，直穷银汉，问津深入。
Plaidml--MAC+A卡的深度学习方案
一天一杯养乐多: 就是没期望的快 bug会很多而且用的人少相关的博客也少

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。