决策树学习笔记1

lee_沐

于 2018-07-19 15:28:39 发布

阅读量250

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37712157/article/details/81112505

版权

机器学习专栏收录该内容

16 篇文章

订阅专栏

一、衡量标准：

1、熵：随机变量不确定性的度量

2、信息增益：特征X使类Y的不确定性减少的程度

举例计算：有如下数据，4个特征，1个结果（play）

计算类Y(打不打球)的熵值：0.94；

Outlook = sunny 的熵值计算： -2/5*log2(2/5)-3/5*log2(3/5) = 0.971;

3、信息增益率：

二、算法分类：

1、ID3；

2、C4.5;(解决ID3问题，考虑自身熵值，如ID)：信息增益/自身熵值

3、CART;

三、补充

1、若特征是连续值：进行数据的二分（离散化）

四、剪枝：防止过拟合（在训练集上表现很好，但在测试集上表现不好）

1、预剪枝：边建立决策树边进行剪枝（实用）；（sklearn 可视化）

2、后剪枝：建立完决策树再剪枝；

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。