决策树

最新推荐文章于 2020-06-09 21:19:39 发布

dongfeig54321

最新推荐文章于 2020-06-09 21:19:39 发布

阅读量122

点赞数

文章标签：数据结构与算法

原文链接：http://www.cnblogs.com/yinghuali/p/9253341.html

版权

熵：表示随机变量不确定性度量（X有n种取值）
条件熵：表示已知随机变量X的条件下随机变量Y的不确定性
信息增益：g(D,A)=H(D)-H(D/A) 熵与条件熵之差（D可认为是label,H(D)认为label的熵，A认为是数据集其中一个feature）

信息增益比：信息增益/条件熵（A特征信息增益/A特征下label条件熵），用于取值较多的特征
基尼指数：表示不确定度量，基尼指数越大，样本不确定性越大

(基尼指数可以选择最优特征，也可以确定分裂阈值，适用于分类树)
分裂阈值：在所有可能的特征A以及它们所有可能的切分点a中，选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点，操作如下：

ID3:信息增益建树，选大的
C4.5:信息增益率建树，选大的
CART（分类树）：基尼指数建树，在所有可能的特征A以及它们所有可能的切分点a中，选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点
防止过拟合：限制深度，限制叶子结点个数等
决策树优点：可解释性
决策树缺点：1）易过拟合2）决策树的结果可能是不稳定的，因为在数据中一个很小的变化可能导致生成一个完全不同的树
CART（回归树，GBDT基于此回归树生成）：平方误差最小化准则

转载本博笔记须在文章明显处注明原文的链接和作者信息

转载于:https://www.cnblogs.com/yinghuali/p/9253341.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树

熵：表示随机变量不确定性度量（X有n种取值）条件熵：表示已知随机变量X的条件下随机变量Y的不确定性信息增益：g(D,A)=H(D)-H(D/A) 熵与条件熵之差（D可认为是label,H(D)认为label的熵，A认为是数据集其中一个feature）信息增益比：信息增益/条件熵（A特征信息增益/A特征下label条件熵），用于取值较多的特征基尼指数：表示不确定度量，基尼指数越大，...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。