python3《机器学习实战系列》学习笔记----3.1 决策树理论基础

最新推荐文章于 2022-04-23 13:34:49 发布

mcyJacky

最新推荐文章于 2022-04-23 13:34:49 发布

阅读量670

点赞数

分类专栏： 04 机器学习笔记文章标签：决策树 Decision Tree 决策树理论基础机器学习 python3

本文链接：https://blog.csdn.net/mcyJacky/article/details/81952870

版权

04 机器学习笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

前言

机器学习实战系列之学习笔记主要是本人进行学习机器学习的整理。本系列所有代码是用python3编写，并使用IDE Pycharm在Windows平台上编译通过。本系列所涉及的所有代码和资料可在我的github或者码云上下载到，gitbub地址：https://github.com/mcyJacky/MachineLearning，码云地址：https://gitee.com/mcyHome/MachineLearning，如有问题，欢迎指出~。

一、决策树模型与学习

1.1 决策树模型

决策树(Decision tree)，分类的决策树模型是一种描述对实例进行分类的树形结构，是一种基本的分类与回归方法。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型：内部结点(internal)和叶结点(leaf node)，内部结点表示一个特征或属性，叶结点表示一个类。
用决策树进行分类，从根结点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子结点；这时，每个子节点对应着该特征的一个取值，如此递归地对实例进行测试并分配，直到达到叶结点。最后将实例分到叶结点的类中。如下图1.1为决策树示意图。图中圆和方框表示内部结点和叶结点。

图1.1 决策树模型

1.2 决策树与条件概率分布

决策树还表示给定特征条件下类的条件概率分布，这一条件概率分布定义在特征空间的一个划分(partition)上。将特征空间划分为互不相交的单元(cell)或区域(region)，并在每个单元定义一个类的概率分布就构成了一个条件概率分布。决策树的一条路径对应于划分的一个单元。决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。假设 $X$ 为表示特征的随机变量， $Y$ 为类的随机变量，那么这个条件概率分布可以表示 $P(Y|X)$ 。 $X$ 取值于给定划分下单元的集合， $Y$ 取值于类的集合。各个叶结点上的条件概率往往偏向某一个类，即属于某一个类的概率较大，决策树分类时将该结点的实例强行分到条件概率大的那一类去。如下图1.2定义了特征空间的划分.图中大正方形表示特征空间。这个大正方形被若干个小矩形分割，每个小矩形表示一个单元。类别假设有两个类：A和B。图1.3即为图1.2所表示的条件概率分布的决策树。

图1.2 特征空间划分

图1.3 特征空间划分对应的决策树

1.3 决策树决策模型

决策树的学习，假设给定训练数据集

D = {(x 1, y 1), (x 2, y 2), . . ., (x n, y n)}

$D=\big\{ (x_1,y_1),(x_2,y_2),...,(x_n,y_n)\big\}$ 其中，

xi=(x(1)i,x(2)i,...,x(n)i) x i = ( x i ( 1 ) , x i ( 2 ) , . . . , x i ( n ) ) $x_i =(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})$ 为输入实例（特征向量），

n n $n$ 为特征个数，

y_{i} \in {1, 2, . . ., K}

$y_i\in\big\{1,2,...,K\big\}$ 为类标记，

i=1,2,...,N i = 1 , 2 , . . . , N $i=1,2,...,N$ 为样本容量。 学习目标根据给定的训练数据集构建一个决策树模型，使他能够对实例进行正确分类。

决策树学习本质上是从训练数据集中归纳出一组分类规则，与训练数据集不相矛盾的决策树（即能对训练数据进行正确分类的决策树）可能有多个，也可能一个也没有。我们需要的是一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。从一个角度看，决策树学习是由训练数据集估计条件概率模型。基于特征空间划分的类的条件概率模型有无穷多个，我们选择的条件概率模型应该不仅对训练数据有很好的拟合，而且对未知数据有很好的预测。决策树学习用损失函数表示这一目标，决策树学习的损失函数通常是正则化的极大似然函数，决策树学习的策略是以损失函数为目标函数的最小化。

决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分，也对应着决策树的构建。开始，构建根结点，将所有训练数据集放在根结点，选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下的最好的分类。如果这些子集已经能够被基本确定分类，那么构建叶结点，并将这些子集分到所对应的叶结点中去；如果还有子集不能被基本确定分类，那么就对这些子集选择新的最优特征，继续对其进行分割构建相应的结点，如此递归地进行下去，直到所有训练数据子集被基本正确分类，或没有合适的特征为止。最后每个子集都被分到叶结点上，即都有了明确的类，生产了一颗决策树。以上方法生成的决策树可能对训练数据有很好的分类能力，但对未知的测试数据未必有很好的分类能力，即可能发生过拟合现象。我们需要对已生成的数自下而上进行剪切，将数变得更简单，从而使它具有更好的泛化能力。具体地就是去掉过于细分的叶结点，使其回退到父结点，甚至更高的结点，然后将父结点或更高的结点改为新的叶结点。决策树学习的常用算法包括ID3、C4.5、CART三种。而决策树学习算法包含：

①特征选择
②决策树的生成
③决策树的剪枝

二、特征选择

2.1 什么是特征选择

特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别则这个特征是没有分类能力的。下面通过一个例子来说明特征选择问题。

表2.1是一个由14个样本组成的判断是否适合打网球(playtennis)数据集。数据包括Outlook、Temperature、Humidity、Wind4个特征属性。每个特征属性包括不同的特征向量。表最后一列就是表示分类结果：yes|no。

表2.1 根据环天气特征而判断是否适合打网球的数据表

Day	Outlook	Temperature	Humidity	Wind	PlayTennis
D1	Sunny	Hot	High	Weak	No
D2	Sunny	Hot	High	Strong	No
D3	Overcast	Hot	High	Weak	Yes
D4	Rain	Mild	High	Weak	Yes
D5	Rain	Cool	Normal	Weak	Yes
D6	Rain	Cool	Normal	Strong	No
D7	Sunny	Cool	Normal	Strong	Yes
D8	Overcast	Mild	High	Weak	No
D9	Sunny	Cool	Normal	Weak	Yes
D10	Rain	Mild	Normal	Weak	Yes
D11	Sunny	Mild	Normal	Strong	Yes
D12	Overcast	Mild	High	Strong	Yes
D13	Overcast	Hot	Normal	Weak	Yes
D14	Rain	Mild	High	Strong	No

我们希望通过所给的训练数据学习一个打网球判断的决策树，用以对未来某天气特征能否进行打网球进行分类。下图2.1表示从表2.1数据学习到的两个可能的决策树，分别由两个不同的根结点构成。图2.1(a)根结点的特征是Outlook，有三个取值；图2.1(b)根结点的特征是Wind，有两个取值。对应于不同的取值有不同的子结点，两个决策树都可以从此延续下去。问题是：究竟选择哪个特征会更好些呢？这就要求确定选择特征的准则。直观上，如果一个特征具有更好的分类能力，或者说，按照这一特征将训练数据集分割成子集，使得各个子集在当前条件下有最好的分类，那就应该寻找这个特征。而信息增益(Information gain)就能很好的表达这一准则。

图2.1 不同特征决定的不同决策树

2.2 信息增益(Information Gain)

1）信息论(Information Theory)

在讨论信息增益之前，我们先引入几个概念，我们用最通俗易懂的话语来说明。什么叫信息论，也就是可以理解为一件事件所包含的信息量理论。那怎么看待一件事件所包含的信息量呢？首先，比如你收到两件事件的信息：①你妈妈打电话叫你冬天了多注意保暖；②你班主任打电话给你说你得了最高奖学金。对于第一件事件，你是会经常收到你妈妈的问候的，也就是概率极高。而第二件事件是你得了最高奖学金这件事情是很不容易发生的，也就是概率极低。我们可以认为第二件事件所包含的信息量更大。同时，如果问你这两件事件的信息总量是多少，我们可以将第一件事件和第二件事件的信息量进行相加。最后，信息量肯定是大于零。根据这三点，我们假设事件1的信息量为 $H(x_1)$ ，事件2的信息量为 $H(x_2)$ ，我们假设事件发生的概率为 $p(x)$ ，我们会得出如下：

⎧ ⎩ ⎨ ⎪ ⎪ ① H (x) \infty 1 p ( x ) （ 正 比 于 ） ② H (x 1, x 2) = H (x 1) + H (x 2) ③ H (x) \geq 0

$\begin{cases} ①H(x) \infty\frac{1}{p(x)} （正比于）\\ ②H(x_1,x_2)=H(x_1)+H(x_2)\\ ③H(x) \geq0 \end{cases}$

根据以上三点，我们刚好可以用 $H(x)=\log\frac{1}{p(x)}$ 来匹配上述的条件。

2）熵(Entropy)

在信息论与概率统计中，熵是表示随机变量不确定性的度量，当 $X$ 取有限个值的离散随机变量时，其概率分布为：

P (X = x_{i}) = p_{i}, i = 1, 2, . . ., n

$P(X=x_i)=p_i, i=1,2,...,n$ 则随机变量熵的定义为：

E n t r o p y (X) = E x [H (X)] = - \sum i = 1 n p i log p i

$\begin{aligned} Entropy(X) &=E_x[H(X)] \\ & =-\sum_{i=1}^np_i\log{p_i} \end{aligned}$ 若

pi=0 p i = 0 $p_i=0$ ，则定义

0log0=0 0 log ⁡ 0 = 0 $0\log0=0$ 。式中对数是以2为底或以

e e $e$ 为底，这时的熵单位别为比特(bit)或纳特(nat)。熵只依赖于

X

$X$ 的分布，与

X X $X$ 的取值无关，所以也可将

X

$X$ 的熵记作

H(p) H ( p ) $H(p)$ ，即：

H (p) = - \sum i = 1 n p i log p i

$H(p)=-\sum_{i=1}^np_i\log{p_i}$ 熵越大，随机变量的不确定性就越大。从定义可验证：

0 \leq H (p) \leq log n

$0\leq{H(p)}\leq\log{n}$

如当随机变量只取两个值，例如1，0时，即 $X$ 的分布为：

P (X = 1) = p ， p (X = 0) = 1 - p ， 0 \leq p \leq 1

$P(X=1)=p，p(X=0)=1-p，0\leq{p}\leq{1}$ 熵为：

H (p) = - p log 2 p - (1 - p) log 2 (1 - p)

$H(p)=-p\log_2{p}-(1-p)\log_2{(1-p)}$ 这时，熵随概率变化的曲线如图2.2所示（单位为比特）。

图2.2 分布为伯努利分布时熵与概率的关系

当 $p=0$ 或 $p=1$ 时 $H(p)=0$ ，随机变量完全没有不确定性。当 $p=0.5$ 时， $H(p)=1$ ，熵取值最大，随机变量不确定性最大。

3）条件熵

设有随机变量 $(X,Y)$ ，其联合概率分布为：

P (X = x i, Y = y i) = p i j, i = 1, 2, . . ., n; j = 1, 2, . . ., m

$P(X=x_i,Y=y_i)=p_{ij}, i=1,2,...,n;j=1,2,...,m$ 条件熵

H(Y|X) H ( Y | X ) $H(Y|X)$ 表示在已知随机变量

X X $X$ 的条件下随机变量

Y

$Y$ 的不确定性。随机变量

X X $X$ 给定的条件下随机变量

Y

$Y$ 的条件熵（conditional entropy）

H(Y|X) H ( Y | X ) $H(Y|X)$ ，定义为

X X $X$ 给定条件下

Y

$Y$ 的条件概率分布的熵对

X X $X$ 的数学期望：

H (Y | X) = \sum_{i = 1}^{n} p_{i} H (Y | X = x_{i})

$H(Y|X)=\sum_{i=1}^n{p_iH(Y|X=x_i)}$ ，这里的

pi=P(X=xi),i=1,2,...n p i = P ( X = x i ) , i = 1 , 2 , . . . n $p_i=P(X=x_i),i=1,2,...n$ 。

当熵和条件熵中的概率由数据估计（特别是极大似然估计）得到时，所对应的熵与条件熵分别称为经验熵(empirical entropy)和经验条件熵(empirical conditional entropy).此时，如果有0的概率，令 $0\log0=0$ 。

4）信息增益

信息增益表示得知特征 $X$ 的信息而使得类 $Y$ 的信息的不确定性减少的程度。设特征 $A$ 对训练数据集 $D$ 的信息增益 $g(D,A)$ ，定义为集合 $D$ 的经验熵 $H(D)$ 与特征 $A$ 给定条件下 $D$ 的经验条件熵 $H(D|A)$ 之差，即

g (D, A) = H (D) - H (D | A)

$g(D,A)=H(D)-H(D|A)$

决策树学习可以应用信息增益准则选择特征。给定训练数据集 $D$ 和特征 $A$ ，经验熵 $H(D)$ 表示对数据集 $D$ 进行分类的不确定性。而经验条件熵 $H(D|A)$ 表示在特征 $A$ 给定的条件下对数据集 $D$ 进行分类的不确定性。那么它们的差，即信息增益，就表示由于特征 $A$ 而使得对数据集 $D$ 的分类的不确定性减少的程度。显然，对于数据集而言，信息增益依赖于特征，不同的特征往往具有不同的信息增益，信息增益大的特征具有更强的分类能力。

根据信息增益准则的特征的选择方法：对训练数据集（或子集） $D$ ，计算其每个特征的信息增益，并并比较它们的大小，选择信息增益最大的特征。

设训练数据集为 $D$ , $|D|$ 表示其样本容量。设有 $K$ 个类 $C_k，k=1,2,..,K，|C_k|$ 为属于类 $C_k$ 的样本个数， $\sum_{k=1}^K{|C_k|}=|D|$ 。设特征 $A$ 有 $n$ 个不同的取值 $\big\{a_1,a_2,...a_n\big\}$ ，根据特征 $A$ 的取值将 $D$ 划分为 $n$ 个子集 $D_1,D_2,...D_n$ ， $|D_i|$ 为 $D_i$ 的样本个数， $\sum_{i=1}^n{|D_i|}=|D|$ 。记子集 $D_i$ 中属于类 $C_k$ 的样本的集合为 $D_{ik}$ ，即 $D_{ik}=D_i$ $\cap$ $C_k$ ， $|D_{ik}|$ 为 $D_{ik}$ 的样本个数。于是信息增益的具体算法如下：

①经验熵：

H (D) = - \sum k = 1 K | C k | D log 2 | C k | D

$H(D)=-\sum_{k=1}^K\frac{|C_k|}{D} \log_2\frac{|C_k|}{D}$

②经验条件熵：

H (D | A) = \sum I = 1 n | D i | D H (D i) = - \sum I = 1 n | D i | D \sum k = 1 K | D i k | D i log 2 | D i k | D i

$H(D|A)=\sum_{I=1}^n\frac{|D_i|}{D}H(D_i)=-\sum_{I=1}^n\frac{|D_i|}{D}\sum_{k=1}^K\frac{|D_{ik}|}{D_i} \log_2\frac{|D_{ik}|}{D_i}$

③计算信息增益：

g (D, A) = H (D) - H (D | A)

$g(D,A)=H(D)-H(D|A)$

下面对表2.1中Wind特征进行信息增益的计算：

H (D) = - 9 14 log 2 9 14 - 5 14 log 2 5 14 = 0.940

$H(D)=-\frac{9}{14}\log_2\frac{9}{14}-\frac{5}{14}\log_2\frac{5}{14}=0.940$

H (D | W i n d) = - 8 14 [6 8 log 2 6 8 + 2 8 log 2 2 8] - 6 14 [3 6 log 2 3 6 + 3 6 log 2 3 6] = 0.982

$H(D|Wind)=-\frac{8}{14}[\frac{6}{8}\log_2\frac{6}{8}+\frac{2}{8}\log_2\frac{2}{8}]-\frac{6}{14}[\frac{3}{6}\log_2\frac{3}{6}+\frac{3}{6}\log_2\frac{3}{6}]=0.982$

g (D, w i n d) = H (D) - H (D | w i n d) = 0.940 - 0.982 = 0.0478

$g(D,wind)=H(D)-H(D|wind)=0.940-0.982=0.0478$

5）信息增益比

以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题。使用信息增益比(information gain ratio)可以对这个问题进行校正，这是特征选择的另一个准则。

定义：特征 $A$ 对训练数据集 $D$ 的信息增益比 $g_{R}(D,A)$ 为信息增益 $g(D,A)$ 与训练数据集 $D$ 关于特征 $A$ 的值的熵 $H_{A}(D)$ 之比，即：

g R (D, A) = g ( D , A ) H A ( D )

$g_{R}(D,A)=\frac{g(D,A)}{H_{A}(D)}$ 其中，

HA(D)=−∑nk=1|Di|Dlog2|Di|D H A ( D ) = − ∑ k = 1 n | D i | D log 2 ⁡ | D i | D $H_{A}(D)=-\sum_{k=1}^n\frac{|D_i|}{D} \log_2\frac{|D_i|}{D}$ ，

n n $n$ 是特征

A

$A$ 取值的个数。

三、决策树的生成

3.1 ID3算法

ID3算法的核心是在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树。具体方法是：从根结点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点；再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止；最后得到一个决策树。

   算法步骤：
   输入：训练数据集 $D$ ，特征集 $A$ ，阈值 $\varepsilon$ ；
   输出：决策树 $T$ .

(1)若 $D$ 中所有实例属于同一类 $C_k$ ，则 $T$ 为单结点树，并将类 $C_k$ 作为该结点的类标记，返回 $T$ .

(2)若 $A=\emptyset$ ，则 $T$ 为单结点树，并将 $D$ 中实例最大的类 $C_k$ 作为该结点的类标记，返回 $T$ .

(3)否则，按信息增益算法计算 $A$ 中各特征对 $D$ 的信息增益，选择信息增益最大的特征 $A_g$ .

(4)如果 $A_g$ 的信息增益小于阈值 $\varepsilon$ ，则置 $T$ 为单结点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该结点的类标记，返回 $T$ .

(5)否则，对 $A_g$ 的每一可能值 $a_i$ ，依 $A_g=a_i$ 将 $D$ 分割为若干非空子集 $D_i$ ，将 $D_i$ 中实例数最大的类作为标记，构建子结点，由结点及其子结点构成数 $T$ ，返回 $T$ .

(6)对第 $i$ 个子结点，以 $D_i$ 为训练集，以 $A-\big\{A_g\big\}$ 为特征集，递归地调用步骤(1)~(5)，得到子树 $T_i$ ，返回 $T_i$ 。
注意：ID3算法容易产生过拟合现象。

3.2 C4.5的生成算法

C4.5算法与ID3算法相似，C4.5算法对ID3算法进行了改进，C4.5算法在生成过程中，用信息增益比来选择特征。

   算法步骤：
   输入：训练数据集 $D$ ，特征集 $A$ ，阈值 $\varepsilon$ ；
   输出：决策树 $T$ .

(1)若 $D$ 中所有实例属于同一类 $C_k$ ，则 $T$ 为单结点树，并将类 $C_k$ 作为该结点的类标记，返回 $T$ .

(2)若 $A=\emptyset$ ，则 $T$ 为单结点树，并将 $D$ 中实例最大的类 $C_k$ 作为该结点的类标记，返回 $T$ .

(3)否则，按信息增益比算法计算 $A$ 中各特征对 $D$ 的信息增益比，选择信息增益比最大的特征 $A_g$ .

(4)如果 $A_g$ 的信息增益比小于阈值 $\varepsilon$ ，则置 $T$ 为单结点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该结点的类标记，返回 $T$ .

(6)对第 $i$ 个子结点，以 $D_i$ 为训练集，以 $A-\big\{A_g\big\}$ 为特征集，递归地调用步骤(1)~(5)，得到子树 $T_i$ ，返回 $T_i$ 。

四、决策树的剪枝

决策树生成算法递归地产生决策树，直到不能继续下去为止。这样产生的树往往对训练数据的分类很准确，但对未知的测试数据的分类却没有那么准确，即出现过拟合现象。过拟合的原因在于学习时过多地考虑如何提高对训练数据的正确分类，从而构建过于复杂的决策树。解决这个问题的办法是考虑决策树的复杂度，对已生成的决策树进行简化。

在决策树学习中将已生成的树进行简化的过程称为剪枝(pruning)。具体地，剪枝从已生成的树上裁掉一些子树或叶结点，并将其根结点或父结点作为新的叶结点，从而简化分类树模型。

决策树的剪枝往往通过极小化决策树整体的损失函数(loss function)或代价函数(cost function)来实现，设树T的叶结点个数为 $|T|$ ， $t$ 是树 $T$ 的叶结点，该叶结点有 $N_i$ 个样本点，其中 $k$ 类的样本有 $N_{tk}$ 个， $k=1,2,...K$ ， $H_t(T)$ 为叶结点t上的经验熵， $\alpha\geq0$ 为参数，则决策树学习的损失函数可以定义为：

C α = \sum t = 1 | T | N t H t (T) + α | T |

$C_\alpha=\sum_{t=1}^{|T|}N_tH_t(T)+\alpha|T|$ 其中经验熵：

H t (T) = - \sum k N t k N t log 2 N t k N t

$H_t(T)=-\sum_k{\frac{N_{tk}}{N_t}}\log_2\frac{N_{tk}}{N_t}$ 我们记

C(T)=∑|T|t=1NtHt(T) C ( T ) = ∑ t = 1 | T | N t H t ( T ) $C(T)=\sum_{t=1}^{|T|}N_tH_t(T)$ ，所以有

C α = C (T) + α | T |

$C_\alpha=C(T)+\alpha|T|$ 式中，

C(T) C ( T ) $C(T)$ 表示模型对训练数据的预测误差，即模型与训练数据的拟合度，

|T| | T | $|T|$ 表示模型复杂程度，参数

α≥0 α ≥ 0 $\alpha\geq0$ 控制两者之间的影响。较大的 $\alpha$ 促进选择简单的模型树，较小的 $\alpha$ 促使选择较复杂的模型树。 $\alpha=0$ 意味着只考虑模型与训练数据的拟合程度，不考虑模型的复杂度。

剪枝，就是当 $\alpha$ 确定时，选择损失函数最小的模型，即损失函数最小的树。当 $\alpha$ 确定时，子树越大，往往与训练数据的拟合越好，但是模型的复杂度就越高；相反，子树越小，模型的复杂度就越低，但是往往与训练数据的拟合不好。损失函数正好表示了对两者的平衡。图4.1为决策树剪枝的示例模型。

图4.1 决策树的剪枝

五、扩展

5.1 基尼指数(Gini Index )

除了信息增益好信息增益比进行特征选择时，我们还可以使用基尼指数，我们常常把它用于CART算法。

定义：分类中，假设有 $K$ 个类，样本点属于第 $k$ 类的概率为 $p_k$ ，则概率分布的基尼指数定义为：

G i n i (p) = 1 - \sum k = 1 K p 2 k

$Gini(p)=1-\sum_{k=1}^Kp_k^2$

而对于给定的样本集合 $D$ ，其基尼指数为：

G i n i (D) = 1 - \sum_{k - 1}^{K} (\frac{| C_{k} |}{| D |})^{2}

$Gini(D)=1-\sum_{k-1}^K(\frac{|C_k|}{|D|})^2$ 这里，

Ck C k $C_k$ 是

D D $D$ 中属于第

k

$k$ 类的样本子集，

K K $K$ 是类的个数。如果样本集合

D

$D$ 根据特征

A A $A$ 是否取某一可能值

a

$a$ 被分割成

D1 D 1 $D_1$ 和

D2 D 2 $D_2$ ，则在特征

A A $A$ 的条件下，集合 $D$ 的基尼指数为：

$G i n i (D, A) = | D 1 | | D | G i n i (D 1) + | D 2 | | D | G i n i (D 2)$ $Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$

   基尼指数Gini(D)表示集合D的不确定性，基尼指数Gini(D,A)表示精A=a分割后集合D的不确定性。基尼指数值越大，样本集合的不确定性也就越大。

5.2 分类误差率(Misclassification Error)

   我们也可以通过分类误差率进行特征选择，假设有 $K$ 个类，样本点属于第 $k$ 类的概率为 $p_k$ 分类误差率的公式如下：

$E r r o r (p) = 1 - m a x (p k)$ $Error(p) = 1- max(p_k)$ 。

   运用熵、基尼指数、分类误差率进行二类分类分类时，得到的结果是一样的。从下图5.1可以知道三条曲线取到最值的时候是相同的。

图5.1 二类分类中基尼指数、熵、分类误差率的关系

【参考】：
   1. 《统计学习方法》作者：李航第5章决策树
   2. 《机器学习》作者：周志华
   3. 视频《机器学习全新升级版Ⅰ》（决策树）秦曾昌

转载声明：
版权声明：非商用自由转载-保持署名-注明出处
署名：mcyJacky
文章出处：https://blog.csdn.net/mcyJacky

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

mcyJacky

关注关注

0
点赞

踩

8

收藏

觉得还不错? 一键收藏

0
评论

python3《机器学习实战系列》学习笔记----3.1 决策树理论基础

前言&amp;amp;amp;amp;amp;amp;nbsp; &amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;amp;nbsp;机器学习实战系列之学习笔记主要是本人进行学习机器学习的整理。本系列所有代码是用python3编写，并使用IDE Pycharm在Windows平台上编译通过。本系列所涉及的所有代码和资料可在我的github或者码云上下载到，git
复制链接

扫一扫

专栏目录

手动实现朴素贝叶斯分类器算法（平滑方法）根据天气情况预测要不要去打网球

qq_38178543的博客

07-24 5823

请手动实现（不准调用任何现成的机器学习工具包中的朴素贝叶斯分类器）朴素贝叶斯分类器算法（包括概率平滑方法），并在ppt中列出的D14数据集进行训练和验证：将D14数据集随机打乱后，取10个样例为训练集，另外4个测试集；输出测试结果。 import random import pandas as pd import numpy as np from sklearn.model_selection import train_test_split from collections import default

《机器学习实战》python3学习笔记——决策树

weixin_44930680的博客

04-28 523

决策树理论部分前言1 划分选择1.1 信息增益前言 决策树（decsision tree）是一类常见的机器学习算法。以周志华老师《机器学习》中西瓜数据集为例，我们希望从给定训练集中学得一个模型用于对测试集分类。本文将详细解读书中代码，并使用sklearn库实现管道泄漏信号四分类。 1 划分选择 1.1 信息增益 “信息熵”是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第k类样本所占的比...

参与评论您还未登录，请先登录后发表或查看评论

决策树例子与python实现

sarracode的博客

07-26 4960

决策树的划分依据之一是信息增益的大小对于下面这个例子，使用ID3算法，ID3：使用信息增益g(D,A)进行特征选择一个特征的信息增益(或信息增益率，或基尼系数)越大，表明特征对样本的熵的减少能力更强，这个特征使得数据由不确定性到确定性的能力越强下面就以一个经典的打网球的例子来说明如何构建决策树。我们今天是否去打网球（play）主要由天气（outlook）、温度（tempera...

机器学习贝叶斯学习器——关于是否打网球的源代码

01-15

机器学习贝叶斯学习器的经典算法，关于是否去打网球的源代码

Python实现决策树——以对天气是否适合打网球做出预测的简单样例实现

热门推荐

swz_study

05-15 1万+

一、题目描述：现有如表1数据集，需要通过给定的数据集实现一颗决策树来对今天的天气是否适合打网球做出预测(将最后4行数据作为测试集，其他所有数据作为训练集）。二、数据集表1 数据集天气温度湿度是否有风是否适合打网球晴热高否否晴热高是否阴热高否是雨温高否是雨凉爽中否是雨凉爽中是否阴 ...

决策树之ID3算法

AIGC Studio：分享AIGC前沿知识和好玩应用，公众号同名。

11-08 1543

概述 ID3算法是构建决策树算法中一种非常重要的算法，可以说它是学习决策树算法的基础吧。ID3又叫做迭代二分器，是以信息增益为准则选择划分属性的，对可取值数目较多的属性有所偏好。本文整合了两位大神的博客，介绍了一些基本原理和西瓜书的随对应的决策树习题4.3，再次感谢。引言如果你是刚刚才接触到有关决策树的相关内容，那么你可能就会有一些疑问，什么是决策树？对于什么是决策树这个话题，如果站在...

机器学习实战(第三章-决策树-ID3算法-所有代码与详细注解-python3.7)

12-09

总之，这个压缩包提供了对决策树和ID3算法的全面理解，包括理论和实践两方面，对于学习和应用机器学习的读者来说是一份宝贵的资料。通过阅读代码和注释，你可以深入掌握如何在Python中实现决策树，并理解其内在的...

Python：Python机器学习基础：Scikit-Learn

最新发布

07-14

Python：Python机器学习基础：Scikit-Learn

机器学习-基于Python实现的机器学习算法之决策树.zip

03-03

决策树是一种广泛应用于数据挖掘和机器学习的算法，它通过构建一种树状模型来做出预测。在本资料包中，重点讲述了如何使用Python语言来实现决策树算法。Python因其丰富的库支持，成为机器学习领域非常受欢迎的编程...

Python-Tensorflow实战学习笔记代码机器学习进阶系列

08-11

tensorflow_in_action ：： Tensorflow实战学习笔记 MachinLN ：： 机器学习进阶系列 Tensorflow ：： tensorflow实战代码 ...face_detection ：：人脸检测系列 ...ml_in_action ：： 机器学习实战代码注释

Python机器学习算法库scikit-learn学习之决策树实现方法详解

09-19

主要介绍了Python机器学习算法库scikit-learn学习之决策树实现方法,结合实例形式分析了决策树算法的原理及使用sklearn库实现决策树的相关操作技巧,需要的朋友可以参考下

py2.7 : 《机器学习实战》3.1号：预测数值型数据：回归

Kelisiya

03-01 524

一、线性回归 # -*- coding: utf-8 -*- from numpy import * def loadData(fileName): numFeat = len(open(fileName).readline().split('\t')) - 1 #通过这样的划分得到特征数 #print "numFeat = " , numFeat dataMat = [

朴素贝叶斯分类器

小硒---代码无疆

04-03 5502

贝叶斯定理贝叶斯定理解决了现实生活里经常遇到的问题：已知某条件概率，如何得到两个事件交换后的概率，也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率：表示事件B已经发生的前提下，事件A发生的概率，叫做事件B发生下事件A的条件概率。其基本求解公式为：。贝叶斯定理之所以有用，是因为我们在生活中经常遇到这种情况：我们可以很容易直

《机器学习》第三章决策树学习 ID3算法 c++实现代码

Aszxqw

09-13 7965

很久没写含这么多stl的程序了，很故意的用set，map，vector，熟手一下。也记录一下吧，虽然写得比较渣。三个文件：测试数据：data.txt D1 Sunny Hot High Weak No D2 Sunny Hot High Strong No D3 Overcast

机器学习实验：朴素贝叶斯算法

m0_46553432的博客

04-14 2554

机器学习实验：朴素贝叶斯算法编程实现朴素贝叶斯算法，并根据如下训练集输出预测结果：预测样本{Outlook=Sunny，Temp=Cool，Humidity=High，Wind=Strong}是否打球。给出代码与运行结果图。根据给出的算法naivebayes.py，实现： 1、将数据集文件naivebayes_data.csv中的数据替换成14天打球与天气数据； 2、预测样本{Outlook=Sunny，Temp=Cool，Humidity=High，Windy=Strong}是否打球。

Python机器学习（1）-- 自己设计一个感知机（Perceptron）分类算法

红色石头的专栏

06-16 1万+

Implementing a perceptron learning algorithm in PythonDefine a Classimport numpy as np class Perceptron(object): """Perceptron classifier. Parameters ------------ eta : float Lea

哪个选项不是python浮点数类型_Python3类型错误：'数字浮点数64'对象不是iterab

weixin_39725403的博客

02-11 796

我想用KNN绘制一个图，显示错误分类错误与dek邻居。在这就是我为之构建的代码：# creating odd list of K for KNNmyList = list(range(1,50))# subsetting just the odd onesneighbors = filter(lambda x: x % 2 != 0, myList)# empty list that will h...

Python3爬虫系列：理论+实验+爬取妹子图实战

weixin_34268610的博客

08-28 1151

Github： github.com/wangy8961/p… ，欢迎star **爬虫系列： ** (1) 理论 Python3爬虫系列01 (理论) - I/O Models 阻塞非阻塞同步异步 Python3爬虫系列02 (理论) - Python并发编程 Python3爬虫系列06 (理论) - 可迭代对象、迭代器、生成器 Python3爬虫系列07 (理论) - 协程 Pyt...

机器学习实战 3.1MNIST数据集 & 3.2训练二元分类器

weixin_45853381的博客

04-23 2908

3.1 mnist 下面是获取MNIST数据集的代码： from sklearn.datasets import fetch_openml # 从 Scikit-Learn 0.24 开始，fetch_openml() 默认返回 Pandas DataFrame。 # 为了避免这种情况并保持与书中相同的代码，我们使用 as_frame=False。 # 下载失败可以多尝试几次，初次时间会稍微稍微久一点，我等了 12min7s，再次使用会优先检查缓存文件。 mnist = fetch_openml('

Python深度学习与机器学习实战：Scikit-Learn与TensorFlow应用

Scikit-Learn是一个强大的机器学习库，提供了各种预处理方法、模型选择工具以及多种机器学习算法，如支持向量机（SVM）、决策树、随机森林和K近邻（KNN）等。它简化了数据建模和验证的过程，使得初学者和专业数据...

“相关推荐”对你有帮助么？

非常没帮助

没帮助

一般

有帮助

非常有帮助

提交