决策树算法 python实现

最新推荐文章于 2024-07-11 09:58:56 发布

IT独白者

最新推荐文章于 2024-07-11 09:58:56 发布

阅读量574

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sun_wangdong/article/details/78758270

版权

机器学习专栏收录该内容

34 篇文章 1 订阅

订阅专栏

lz最近在研究机器学习十大算法中的决策树算法(decision tree dt)，这是一种用于分类的算法。首先需要有具体的数据集，数据集中包含很多的特征属性和具体的类的判别。

一、信息熵和信息增益

信息熵是用于衡量样本集中纯度的一种常用的指标。假定当前样本集d中第k类样本所占的比例为pk，则d的信息熵为公式

并且信息熵越小，则其纯度越高。

假定离散属性a有v个可能取值的属性，若使用a来对样本集d进行划分，会产生v个分支点，其中第v个分支点包含了d中所有在属性a上取值为av的样本，可以根据上述公式来计算dv的信息熵。同时再考虑各个分支节点的权重，即此分支节点在总体属性上的一个出现情况。这样就可以得到信息增益的概念gain(d,a)。它的表示如下：

一般而言，信息增益越大，则意味着使用属性a来进行划分所获得的“纯度提升”比较大，因此，可用信息增益进行决策树的属性划分选择，也就是选择各个属性的信息增益越大者，则作为当前节点下的属性划分标准。著名的id3决策树算法就是采用这种方法来进行属性划分的。

以下给出一个案例，我们通过一步步的方式来向大家展示如何用信息增益进行决策树的决策的。

首先是数据集：

[[1,1,yes],

[1,1,yes],

[1,0,no],

[0,1,no],

[0,1,no]

]

这个数据集的前两列表示特征属性0和1，最后一列的yes和no表示的是分类结果，那么我们首先对最后一列分类结果计算信息熵。

然后分别对特征属性0和1进行信息增益值的计算。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。