机器学习笔记：Decision tree

最新推荐文章于 2023-10-12 20:28:41 发布

十里倾诚

最新推荐文章于 2023-10-12 20:28:41 发布

阅读量228

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/langjijianghu_123/article/details/81219555

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

格式驾驭不了，图片大小不会改，可以直接看我的有道笔记：http://note.youdao.com/noteshare?id=e11f1f0f08b9012b0221c2b94c9b438e

熵：信息熵是度量样本集合纯度最常用的一种指标

熵：衡量不确定性的度量。确定的，不随机的，熵最小。随机事件不偏向任何一方，熵达到最大。（取第i种情况概率为p(x),ln 为log2）

联合熵：(X,Y)在一起时的不确定性度量。

条件熵：X确定时，Y不确定性度量。在X发生是前提，Y发生新带来的熵。

交叉熵：衡量p与q的相似性。

KL散度（相对熵）：p与q不相似的度量。

常用的树搭建方法：当选择用样本的某一个属性a来划分样本集合时，就可以得出用属性a对样本D进行划分所带来的信息。根据信息选择最适合的划分点。

ID3:（数据划分标准）信息增益.信息增益越大，纯度越好。

按照某个特征分割前后熵的减少程度。

特点：（1）容易造成过度拟合。（2）使用标称型数据，但是很难处理连续型数据。

C4.5:信息增益率。(越大，纯度越高)。

用信息增益会出现优先选择具有较多的特征，毕竟分得越细的属性确定性越高。所以提出了信息增益率的概念，让含较多的属性特征的作用降低。无论是ID3还是C4.5最好在小数据集上使用，决策树分类一般只试用于小数据。当属性取值很多时最好选择C4.5算法，ID3得出的效果会非常差。

CART:Gini指数（Gini越小表示样本纯度越高）。全称为Classification and Regression Tree。

可以应用于分类和回归。只能用于切分二叉树而且和ID3\C4.5树不同，CART树不会再每一个步骤删除所用特征。

防止过拟合方法：剪枝

剪枝分为前剪枝和后剪枝，前剪枝本质就是早停止，后剪枝通常是通过衡量剪枝后损失函数变化来决定是否剪枝。后剪枝有：错误率降低剪枝、悲观剪枝、代价复杂度剪枝

前剪枝几种停止条件：①节点中样本为同一类②特征不足返回多类③如果某个分支没有值则返回父节点的多类④样本个数小于阈值返回多类。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。