决策树算法学习

最新推荐文章于 2022-09-10 11:52:22 发布

3ho-

最新推荐文章于 2022-09-10 11:52:22 发布

阅读量305

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_43303805/article/details/104339367

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

决策树算法是一类机器学习中的分类算法。决策树是一类树状结构，每个叶节点对应着一个分类，非叶节点对应着在某个属性上的划分，根据赝本在该属性上的不同取值将其划分成若干个子集。如何构建决策树是主要的问题。

1、信息熵(Entropy)
熵的概念主要是指信息的混乱程度，变量的不确定性越大，熵的值也就越大，熵的公式可以表示为：
$在这里插入图片描述$
其中， $在这里插入图片描述$ ， $在这里插入图片描述$ 为类别在样本中出现的概率。
2、信息增益(Information gain)
信息增益指的是划分前后熵的变化，可以用下面的公式表示：
$在这里插入图片描述$
其中，A表示样本的属性，Vaule(A)是属性A所有取值集合。V是A的其中一个属性值，Sv是S中A的值为V的样例集合。
接下来以天气预报的例子来说明。下面是描述天气数据表，学习目标是play或者not play。

可以看出，一共14个样例，包括9个正例和5个负例。那么当前信息的熵计算如下

在这里插入图片描述

在决策树分类问题中，信息增益就是决策树在进行属性选择划分前和划分后信息的差值。假设利用

属性Outlook来分类，那么如下图

在这里插入图片描述

  划分后，数据被分为三部分了，那么各个分支的信息熵计算如下

在这里插入图片描述

   那么划分后的信息熵为

在这里插入图片描述

   ![在这里插入图片描述](https://imgconvert.csdnimg.cn/aHR0cDovL2ltYWdlcy5jbml0YmxvZy5jb20vYmxvZy81NzEyMjcvMjAxNDEyLzEyMTQyNTIzOTQ2NDU4My5wbmc?x-oss-process=image/format,png) 代表在特征属性的条件下样本的条件熵。那么最终得到特征属性带来的信息增益为

在这里插入图片描述

信息增益的计算公式如下

在这里插入图片描述
在决策树的每一个非叶子结点划分之前，先计算每一个属性所带来的信息增益，选择最大信息增益的属性来划分，因为信息增益越大，区分样本的能力就越强，越具有代表性，很显然这是一种自顶向下的贪心策略。以上就是ID3算法的核心思想。

有兴趣的话可以看一下北风网的视频，我从中受益很多北风网伍老师决策树视频

上面的是一些理论知识，信息熵还有信息增益都是一些理论上的东西。北风网伍老师说的一句话是我们要学会站在巨人肩膀上考虑问题。我们的sklearn这个库里面，包含了决策树的一些集成方法。
DecisionTreeClassifier(criterion=“gini”,
splitter=“best”,
max_depth=None,
min_samples_split=2,
min_samples_leaf=1,
min_weight_fraction_leaf=0.,
max_features=None,
random_state=None,
max_leaf_nodes=None,
min_impurity_decrease=0.,
min_impurity_split=None,
class_weight=None,
presort=False)

参数含义：
1.criterion:string, optional (default=“gini”)
(1).criterion=‘gini’,分裂节点时评价准则是Gini指数。
(2).criterion=‘entropy’,分裂节点时的评价指标是信息增益。
2.max_depth:int or None, optional (default=None)。指定树的最大深度。
如果为None，表示树的深度不限。直到所有的叶子节点都是纯净的，即叶子节点
中所有的样本点都属于同一个类别。或者每个叶子节点包含的样本数小于min_samples_split。
3.splitter:string, optional (default=“best”)。指定分裂节点时的策略。
(1).splitter=‘best’,表示选择最优的分裂策略。
(2).splitter=‘random’,表示选择最好的随机切分策略。
4.min_samples_split:int, float, optional (default=2)。表示分裂一个内部节点需要的做少样本数。
(1).如果为整数，则min_samples_split就是最少样本数。
(2).如果为浮点数(0到1之间)，则每次分裂最少样本数为ceil(min_samples_split * n_samples)
5.min_samples_leaf: int, float, optional (default=1)。指定每个叶子节点需要的最少样本数。
(1).如果为整数，则min_samples_split就是最少样本数。
(2).如果为浮点数(0到1之间)，则每个叶子节点最少样本数为ceil(min_samples_leaf * n_samples)
6.min_weight_fraction_leaf:float, optional (default=0.)
指定叶子节点中样本的最小权重。
7.max_features:int, float, string or None, optional (default=None).
搜寻最佳划分的时候考虑的特征数量。
(1).如果为整数，每次分裂只考虑max_features个特征。
(2).如果为浮点数(0到1之间)，每次切分只考虑int(max_features * n_features)个特征。
(3).如果为’auto’或者’sqrt’,则每次切分只考虑sqrt(n_features)个特征
(4).如果为’log2’,则每次切分只考虑log2(n_features)个特征。
(5).如果为None,则每次切分考虑n_features个特征。
(6).如果已经考虑了max_features个特征，但还是没有找到一个有效的切分，那么还会继续寻找
下一个特征，直到找到一个有效的切分为止。
8.random_state:int, RandomState instance or None, optional (default=None)
(1).如果为整数，则它指定了随机数生成器的种子。
(2).如果为RandomState实例，则指定了随机数生成器。
(3).如果为None，则使用默认的随机数生成器。
9.max_leaf_nodes: int or None, optional (default=None)。指定了叶子节点的最大数量。
(1).如果为None,叶子节点数量不限。
(2).如果为整数，则max_depth被忽略。
10.min_impurity_decrease:float, optional (default=0.)
如果节点的分裂导致不纯度的减少(分裂后样本比分裂前更加纯净)大于或等于min_impurity_decrease，则分裂该节点。
加权不纯度的减少量计算公式为：
min_impurity_decrease=N_t / N * (impurity - N_t_R / N_t * right_impurity
- N_t_L / N_t * left_impurity)
其中N是样本的总数，N_t是当前节点的样本数，N_t_L是分裂后左子节点的样本数，
N_t_R是分裂后右子节点的样本数。impurity指当前节点的基尼指数，right_impurity指
分裂后右子节点的基尼指数。left_impurity指分裂后左子节点的基尼指数。
11.min_impurity_split:float
树生长过程中早停止的阈值。如果当前节点的不纯度高于阈值，节点将分裂，否则它是叶子节点。
这个参数已经被弃用。用min_impurity_decrease代替了min_impurity_split。
12.class_weight:dict, list of dicts, “balanced” or None, default=None
类别权重的形式为{class_label: weight}
(1).如果没有给出每个类别的权重，则每个类别的权重都为1。
(2).如果class_weight=‘balanced’，则分类的权重与样本中每个类别出现的频率成反比。
计算公式为：n_samples / (n_classes * np.bincount(y))
(3).如果sample_weight提供了样本权重(由fit方法提供)，则这些权重都会乘以sample_weight。
13.presort:bool, optional (default=False)
指定是否需要提前排序数据从而加速训练中寻找最优切分的过程。设置为True时，对于大数据集
会减慢总体的训练过程；但是对于一个小数据集或者设定了最大深度的情况下，会加速训练过程。

3ho-

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树算法学习

决策树算法是一类机器学习中的分类算法。决策树是一类树状结构，每个叶节点对应着一个分类，非叶节点对应着在某个属性上的划分，根据赝本在该属性上的不同取值将其划分成若干个子集。如何构建决策树是主要的问题。1、信息熵(Entropy)熵的概念主要是指信息的混乱程度，变量的不确定性越大，熵的值也就越大，熵的公式可以表示为：其中，，为类别在样本中出现的概率。2、信息增益(Information g...
复制链接

扫一扫