机器学习算法基础3-决策树

最新推荐文章于 2024-06-19 13:02:55 发布

dfy20020530

最新推荐文章于 2024-06-19 13:02:55 发布

阅读量303

点赞数

分类专栏：算法基础 ML

本文链接：https://blog.csdn.net/dfy20020530/article/details/89004091

版权

本文介绍了决策树的基础，包括信息论中的熵、联合熵、条件熵和信息增益。讨论了基尼不纯度在决策树中的作用，以及如何使用它来选择划分属性。还提到了ID3、C4.5和CART算法，并探讨了决策树防止过拟合的策略，如剪枝方法。最后，概述了sklearn库中决策树模型的关键参数。

摘要由CSDN通过智能技术生成

摘要
今天介绍决策树以及信息论基础首先我们看到信息论基础可以分为

熵
是接收的每条消息中包含的资讯的平均量，又被称为资讯熵，信源熵，平均资讯本体量。这里，「消息」代表来自分布或数据流中的事件，样本或特征。（熵最好理解为不确定性的量度而不是确定性的量度，因为越随机的信源的熵越大。）
联合熵
联合熵的定义，代表X,Y同时发生的不确定性
条件熵
在资讯理论中，条件熵描述了在已知第二个随机变量 X的值的前提下，随机变量 Y的信息熵还有多少。同其它的信息熵一样，条件熵也用Sh、nat、Hart等信息单位表示。基于}X条件的Y的信息熵，用H(Y | X）表示。
信息增益
熵 - 条件熵在一个条件下，信息不确定性减少的程度！通俗地讲，X(明天下雨)是一个随机变量，X的熵可以算出来， Y(明天阴天)也是随机变量，在阴天情况下下雨的信息熵我们如果也知道的话（此处需要知道其联合概率分布或是通过数据估计）即是条件熵。两者相减就是信息增益！原来明天下雨例如信息熵是2，条件熵是0.01（因为如果是阴天就下雨的概率很大，信息就少了），这样相减后为1.99，在获得阴天这个信息后，下雨信息不确定性减少了1.99！是很多的！所以信息增益大！也就是说，阴天这个信息对下雨来说是很重要的！所以在特征选择的时候常常用信息增益，如果IG（信息增益大）的话那么这个特征对于分类来说很关键~~ 决策树就是这样来找特征的！
基尼不纯度
基尼不纯度是用于决策树编程中的一个专业术语。
基尼不纯度,是指将来自集合中的某种结果随机应用在集合中，某一数据项的预期误差率。
是在进行决策树编程的时候，对于混杂程度的预测中ÿ

最低0.47元/天解锁文章

dfy20020530

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法基础3-决策树

摘要今天介绍决策树以及信息论基础首先我们看到信息论基础可以分为熵是接收的每条消息中包含的资讯的平均量，又被称为资讯熵，信源熵，平均资讯本体量。这里，「消息」代表来自分布或数据流中的事件，样本或特征。（熵最好理解为不确定性的量度而不是确定性的量度，因为越随机的信源的熵越大。）联合熵联合熵的定义，代表X,Y同时发生的不确定性条件熵在资讯理论中，条件熵描述了在已知第二个随机变量 ...
复制链接

扫一扫

专栏目录