机器学习之决策树：一、算法原理

最新推荐文章于 2022-07-21 23:12:06 发布

梅菜扣肉鱼丸粗面

最新推荐文章于 2022-07-21 23:12:06 发布

阅读量265

点赞数

分类专栏：机器学习文章标签：机器学习决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qushuo123/article/details/107174817

版权

目录

一、算法介绍

二、概念介绍

2.1、信息熵

2.2、信息增益与信息增益率

2.3、基尼系数

三、决策树的优缺点

四、决策树的剪枝

五、决策树的构建算法

一、算法介绍

决策树(Decision tree)是一种基本的分类与回归算法，本次博客只讨论用于分类的决策树。

决策树，顾名思义，是一种基于树结构的决策选择模型，表示基于特征对实例分类的过程。它可以认为是if-then的规则集合，也可以认为是特征空间上的条件概率分布。决策树依据对某种特征的满足与否进行子集划分，整棵树的节点分为内部节点和叶子节点，内部节点对应作为划分依据的特征，叶子节点表示满足从根节点到该叶子节点路径上所有属性要求的实例的分类。

如下图所示（圆表示内部节点，方框表示叶子节点）：

规定决策树的左子树表示满足父节点的要求，右子树表示不满足。如上图所示，第一象限的点表示满足X>0为真并且满足Y>0为真，即满足从根节点到该叶子节点路径上的所有要求，最终确定了象限分类。

二、概念介绍

2.1、信息熵

熵是由被评为20世纪最聪明的人之一的克劳德·香农提出的。作为信息论的创始人，有人这样评价他，“贝尔实验室和MIT的很多人将香农与爱因斯坦相提并论，但有些人认为这是不公平的——对香农不公平。”

熵是用来衡量信息的不确定程度的物理量，熵的值越大，信息的混乱程度就越大，熵的值越小，信息的混乱程度就越低。

设离散变量X的概率分布为： $\large P(X=x_{i})=p_{i} i = 1,2,3....n$

那么随机变量X的熵定义为： $\large H(X)=-\sum_{i=1}^{n}p_{i}logp_{i}$

此处log的底一般为2或者自然对数e，本博客中取e作为底，熵的单位为bit，若p=0,那么认为plogp=0。

上图的信息熵为:

最低0.47元/天解锁文章

梅菜扣肉鱼丸粗面

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之决策树：一、算法原理

目录一、算法介绍二、概念介绍2.1、信息熵2.2、信息增益与信息增益率一、算法介绍决策树(Decision tree)是一种基本的分类与回归算法，本次博客只讨论用于分类的决策树。决策树，顾名思义，是一种基于树结构的决策选择模型，表示基于特征对实例分类的过程。它可以认为是if-then的规则集合，也可以认为是特征空间上的条件概率分布。决策树依据对某种特征的满足与否进行子集划分，整棵树的节点分为内部节点和叶子节点，内部节点对应作为划分依据的特征，叶子节点表示满足从根节点到该叶子节点.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。