《统计学习方法》-李航、《机器学习-西瓜书》-周志华总结+Python代码连载（四）--决策树(Decison-Tree)

最新推荐文章于 2022-01-05 20:57:21 发布

xiao韩

最新推荐文章于 2022-01-05 20:57:21 发布

阅读量908

点赞数

分类专栏： Python与AI 学习笔记机器学习文章标签：机器学习决策树 ID3 C4.5 CART Python AI 学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28821995/article/details/100170020

版权

一、决策树的概论

决策树是一种基本的分类与回归方法，是表示基于特征对示例进行分类与回归的树形结构。决策树可以转换成一个if-then规则的集合，也可以看作是定义在特征空间划分上的类的条件概率分布。

一般的，一颗决策树包含一个根结点，若干个内部节点和若干个叶结点，每个叶结点对应于决策结果，其他的每个结点则对应于一个属性测试，生成决策树的基本流程遵循‘分而治之’策略。具体算法如下：

输入：训练集D={( $x_{1}$ , $y_{1}$ ),...,( $x_{m}$ , $y_{m}$ )};属性集A={ $a_{1}$ ,..., $a_{d}$ }.

过程：

1.生成节点node;

2.if D中的样本全属于同一类别C then

3. 将node标记为C类叶节点；return

4.end if

5.if A= $\varnothing$ or D中样本在A中取值相同 then

6. 将node标记为叶结点，其类别标记为D中样本数最多的类；return

7.end if

8.从A中选择最优划分的属性 $a_{*}$ ；

9.for $a_{*}$ 的每一个值 $a_{*}^{v}$ do

10. 为node生成一个分支；令 $D_{v}$ 表示D中在 $a_{*}$ 上取值为 $a_{*}^{v}$ 的样本子集；

11. if $D_{v}$ 为空 then

12. 将分支结点标记为叶结点，其类别标记为D中样本最多的类；return

13. else

14. 递归该函数；

15. end if

16.end for

输出：以node为结点的一颗决策树

二、决策树中特征选择

2.1 信息增益-应用到ID3算法（选取最大的值）

特征A对训练集D的信息增益g(D,A)，定义训练集D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差，即：

g(D,A) = H(D)-H(D|A)

其中有:

$H(D) = -\sum_{k=1}^{K} \frac{\left | C_{k} \right |}{\left | D \right |}log_{2}\frac{\left | C_{k} \right |}{\left | D \right |}$

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》-李航、《机器学习-西瓜书》-周志华总结+Python代码连载（四）--决策树(Decison-Tree)

一、决策树的概论决策树是一种基本的分类与回归方法，是表示基于特征对示例进行分类与回归的树形结构。决策树可以转换成一个if-then规则的集合，也可以看作是定义在特征空间划分上的类的条件概率分布。一般的，一颗决策树包含一个根结点，若干个内部节点和若干个叶结点，每个叶结点对应于决策结果，其他的每个结点则对应于一个属性测试，生成决策树的基本流程遵循‘分而治之’策略。具体算法如下：输入：训练集...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。