决策树基础以及Python代码实现

最新推荐文章于 2020-11-28 14:19:38 发布

sun_rose

最新推荐文章于 2020-11-28 14:19:38 发布

阅读量356

点赞数

分类专栏：机器学习基础教程文章标签：决策树 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sun_rose/article/details/78783090

版权

本文介绍了决策树的基本概念，包括信息熵、数据集划分和最优特征选择，并提供了Python代码实现的概述。

摘要由CSDN通过智能技术生成

一、一些定义：
1. 信息：西瓜有好瓜和坏瓜，好瓜的信息为

l (x i) = - log 2 p (x i)

$l(x_i)=-\log_2 p(x_i)$

p(xi) $p(x_i)$ 为好瓜的概率，根据-log函数的图像，如果好瓜的概率越大，信息会趋近于0，也就是从一堆瓜里选出好瓜所需要的信息量越少。
2. 信息熵：熵是信息的期望值

E n t (D) = - \sum k = 1 n p k l o g 2 p k

$Ent(D)=-\sum_{k=1}^n p_klog_2 p_k$ D是西瓜数据集，Ent(D)的值越小，D的纯度越高。
在西瓜只分为好瓜和坏瓜的情况下，p(x1)是好瓜的概率，p(x2)为坏瓜的概率，p(x1)+p(x2)=1,这时候信息熵在它们均为0.5时达到最大，若是纯度较高，即好瓜的概率较大，则信息熵比较小。

3.信息增益：假定离散属性a有V个可能的取值，若使用属性a对样本集D进行划分，则会有V个分支节点，第v个分支节点上的样本

Dv

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。