西瓜书第四章学习

あいこ孙泽宇果果课踝棵裹

于 2023-09-21 21:51:15 发布

阅读量112

点赞数

文章标签：学习笔记机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_73839843/article/details/133125222

版权

第四章决策树

4.1算发原理

从逻辑角度来讲，决策树就是一堆if else语句的组合，从几何角度来讲，根据某种准则划分特征空间。无论怎样，目的都还是让我们的样本越来越纯。

4.2定义：

自信息 I（x）=-logb(p(x))

当自信息中b=2时自信息单位为bit，当b=e时自信息单位为nat。

信息熵（自信息的期望）：度量随机变量X的不确定性，信息熵越大越不确定

H(x)=E[I(x)]=-Σp(x）㏒b（p(x))

计算信息熵时约定，若p（x）=0，则p（x）㏒b（p(x))=0。当X的某个取值的概率为一时信息熵最小（最确定），其值为0，当X的各个取值均等时信息熵最大（最不确定），其值为logb｜x｜，其中｜x｜表示x可能取值的个数。

将样本类别标记y视作随机变量，各个类别在样本集合D的占比pk（k=1，2..｜y｜）视作各个类别取值的概率，则样本集合D（随机变量）的信息熵（底数b取值2）为

Ent（D)=--Σpk㏒2（pk)

此时的信息熵所代表的不确定性可以转换理解为集合内样本纯度。

例如划分出一个特征空间，在一个集合里面全都是正样本或者负样本时最纯，即y取到某一个值k时概率是1，此时既是信息熵（不确定性）最小的时候，也是样本最纯的时候。

4.3条件熵

条件熵（y的信息熵关于概率分布x的期望）：在已知x后y的不确定性

H(y|x)=Σp(x)H(Y|X=x)

从单个属性（特征）a的角度来说，假设其可能取值为{a1,a2..av},Dv表示属性a取值为av的样本集合，｜dv｜/D表示占比，那么在已知属性a的取值后，样本条件D的条件熵是

Σ｜Dv｜/|D|Ent(Dv)

4.4信息增益

在已知属性（特征）a的取值后y的不确定性减少的量，即纯度的提升

Gain(D,a)=Ent(D）（信息熵）-Σ｜Dv｜/|D|Ent(Dv)（条件熵）

ID3决策树：以信息增益为准则来选择划分属性的决策树

a*=arg max Gain（D,a）

C4.5决策树

信息增益准则对可能取值数目较多的属性有所偏好（在信息熵，条件熵很小几乎为0时），为减少这种偏好看带来的不便影响，C4.5决策树使用增益率带来信息增益，增益率定义为

Gain_ratio(D,a)=Grain(D,a)/IV(a)

其中

IV(a)=-Σ｜Dv｜/|D|log2｜Dv｜/|D|

称为属性a的固有值，a的可能取值个数V越大，通常其固有值IV（a）越大。但是，增益率对可能取值数目较少的属性有所偏好

あいこ孙泽宇果果课踝棵裹

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

あいこ孙泽宇果果课踝棵裹 CSDN认证博客专家 CSDN认证企业博客

码龄2年

5: 原创

209万+: 周排名

151万+: 总排名

448: 访问

: 等级

50: 积分

0: 粉丝

0: 获赞

2: 评论

0: 收藏

私信

关注

热门文章

最新评论

西瓜树学习第五章
CSDN-Ada助手: 恭喜您写完了第四篇博客，题目为“西瓜树学习第五章”。您的持续创作精神值得赞扬！通过您的文章，不仅了解到了有关西瓜树学习的知识，还能感受到您对学习的热情和坚持不懈的态度。接下来，我想提供一些建议给您，希望能帮助您在创作中不断进步。您可以考虑添加更多实例或案例，以更具体的方式展示西瓜树学习的应用场景和实践经验。此外，如果您能提供一些有关西瓜树学习的深入分析和个人见解，将会更加丰富和独特。再次恭喜您，并期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
西瓜书第六章学习笔记
CSDN-Ada助手: 恭喜您写了第五篇博客！阅读你的学习笔记让我感到非常兴奋，因为你对《西瓜书》第六章的理解和总结让我受益匪浅。希望你能继续保持这样的创作热情，坚持不懈地分享你的学习心得。如果可能的话，我建议你在下一篇博客中加入一些实际的案例分析或者个人观点，这样可以更好地吸引读者并丰富内容。期待你的下一篇作品！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。