决策树算法梳理
信息论基础
熵
度量随机变量的不确定性。(纯度)
定义:假设随机变量X的可能取值有
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2, ... , x_n
x1,x2,...,xn
对于每一个可能的取值
x
i
x_i
xi,其概率
P
(
X
=
x
i
)
=
p
i
,
(
i
=
1
,
2
,
.
.
.
,
n
)
P(X=x_i) = p_i , ( i = 1,2, ... , n)
P(X=xi)=pi,(i=1,2,...,n)
因此随机变量X的熵:
H
(
x
)
=
−
∑
i
=
1
n
p
i
l
o
g
2
p
i
H(x)=-\sum_{i=1}^np_ilog_2p_i
H(x)=−i=1∑npilog2pi
对于样本集合
D
D
D来说,随机变量X是样本的类别,即,假设样本有
k
k
k个类别,每个类别的概率是
∣
C
k
∣
∣
D
∣
\frac{|C_k|}{|D|}
∣D∣∣Ck∣,其中
∣
C
k
∣
|C_k|
∣Ck∣表示类别k的样本个数,
∣
D
∣
|D|
∣D∣表示样本总数
则对于样本集合D来说熵(经验熵)为:
H
(
x
)
=
−
∑
k
=
1
k
∣
C
k
∣
∣
D
∣
l
o
g
2
∣
C
k
∣
∣
D
∣
H(x)=-\sum_{k=1}^k\frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|}
H(x)=−k=1∑k∣D∣∣Ck∣log2∣D∣∣Ck∣
联合熵
将一维随机变量分布推广到多维随机变量分布,则其联合熵 (Joint entropy) 为:
H
(
x
)
=
−
∑
x
,
y
p
(
x
,
y
)
l
o
g
2
p
(
x
,
y
)
H(x)=-\sum_{x,y}p(x,y)log_2p(x,y)
H(x)=−x,y∑p(x,y)log2p(x,y)
注意点:
1、熵只依赖于随机变量的分布,与随机变量取值无关,所以也可以将 X 的熵记作 H§。
2、令0log0=0(因为某个取值概率可能为0)。
条件熵
条件熵
H
(
Y
∣
X
)
H(Y|X)
H(Y∣X) 表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。条件熵
H
(
Y
∣
X
)
H(Y|X)
H(Y∣X) 定义为 X 给定条件下 Y 的条件概率分布的熵对 X 的数学期望:
条件熵
H
(
Y
∣
X
)
H(Y|X)
H(Y∣X)相当于联合熵 H(X,Y)减去单独的熵 H(X),即
H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y|X)=H(X,Y)−H(X) H(Y∣X)=H(X,Y)−H(X)
信息增益
信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好,在概率中定义为:待分类的集合的熵和选定某个特征的条件熵之差(这里只的是经验熵或经验条件熵,由于真正的熵并不知道,是根据样本计算出来的),公式如下:
I
G
(
Y
∣
X
)
=
H
(
Y
)
−
H
(
Y
∣
X
)
IG(Y|X)=H(Y)-H(Y|X)
IG(Y∣X)=H(Y)−H(Y∣X)
基尼不纯度
基尼不纯度的大概意思是 一个随机事件变成它的对立事件的概率
例如 一个随机事件X ,P(X=0) = 0.5 ,P(X=1)=0.5
那么基尼不纯度就为 P(X=0)(1 - P(X=0)) + P(X=1)(1 - P(X=1)) = 0.5
一个随机事件Y ,P(Y=0) = 0.1 ,P(Y=1)=0.9
那么基尼不纯度就为P(Y=0)*(1 - P(Y=0)) + P(Y=1)*(1 - P(Y=1)) = 0.18
很明显 X比Y更混乱,因为两个都为0.5 很难判断哪个发生。而Y就确定得多,Y=0发生的概率很大。而基尼不纯度也就越小。
所以基尼不纯度也可以作为衡量系统混乱程度的标准
决策树的不同分类算法
ID3算法
ID3算法的核心是在决策树各个节点上应用信息增益准则选择特征,递归地构建决策树。具体方法是:从根节点开始,对节点计算所有可能的特征的信息增益,选择信息增益最大的特征作为节点的特征,由该特征的不同取值建立子节点;再对子节点递归的调用以上方法,构建决策树;直到所有特征的信息增益均很小或没有特征可以选择为止。最后得到一个决策树。ID3相当于用极大似然估计法进行概率模型的选择。
D3算法描述:
输入:训练数据集D,特征集A,阈值;
输出:决策树T
(1)若D中所有实例属于同一类 C k C_k Ck,则T为单节点树,并将 C k C_k Ck类作为该节点的类标记,返回T;
(2)若 A = ∅ A=\varnothing A=∅,则T为单节点树,并将D中实例数最大的类作为该节点的类标记,返回T;
(3)否则,按信息增益算法计算A中个特征对D的信息增益,选择信息增益最大的特征;
(4)若果 A g A_g Ag的信息增益小于阈值,则置T为单节点树,并将D中实例数最大的类作为该节点的类标记,返回T;
(5)否则, A g A_g Ag对的每一个可能值,依 A g = a i A_g=a_i Ag=ai将D分割为若干非空子集 D i D_i Di,将中实例数最大的类作为标记,构建子节点,由节点及其子节点构成树T,返回T;
(6)对第i个子节点,以 D i D_i Di为训练集,以 A g {A_g} Ag为特征集,递归地调用(1)~(5)步,得到子树 T i T_i Ti,返回 T i T_i Ti.
C4.5算法介绍
C4.5算法与ID3算法相似,C4.5算法对ID3算法进行了改进,C4.5在生成的过程中,用信息增益比来选择特征。
C4.5算法描述:
(1)若D中所有实例属于同一类
C
k
C_k
Ck,则T为单节点树,并将
C
k
C_k
Ck类作为该节点的类标记,返回T;
(2)若 A = ∅ A=\varnothing A=∅,则T为单节点树,并将D中实例数最大的类 C k C_k Ck作为该节点的类标记,返回T;
(3)否则,按信息增益比来计算A中个特征对D的信息增益比,选择信息增益比最大的特征 A g A_g Ag;
(4)若果 A g A_g Ag的信息增益比小于阈值,则置T为单节点树,并将D中实例数最大的类 C k C_k Ck作为该节点的类标记,返回T;
(5)否则,对 A g A_g Ag的每一个可能值 a i a_i ai,依将D分割为若干非空子集 D i D_i Di,将 D i D_i Di中实例数最大的类作为标记,构建子节点,由节点及其子节点构成树T,返回T;
(6)对第i个子节点,以 D i D_i Di为训练集,以{ A g A_g Ag}为特征集,递归地调用(1)~(5)步,得到子树 T i T_i Ti,返回 T i T_i Ti
CART介绍
CART(Classification And Regression Tree),即可以用作分类也可以用作回归,相较于ID3算法和C4.5算法,CART算法的用途更加广泛。sklearn中的决策树就是使用CART算法构建的。
CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。CART构建决策树用的是二叉树结构,在每个叶节点上预测的是概率分布,也就是在输入给定的条件下输出的条件概率分布。
CART算法由以下两步组成:
(1)决策树生成:基于训练数据集生成决策树,生成的决策树要尽量大;
(2)决策树剪枝:用验证集对已生成的树进行剪枝并选择最优子树,这时用损失函数最小作为剪枝的标准。
CART决策树的生成就是递归的调用二叉树的过程。对回归树用平方误差最小化准则(mse)或绝对误差最小化准则(mae),对分类树用基尼指数最小化准则,进行特征选择,生成二叉树。
回归树生成
对于连续型数据,使用回归树进行预测。在训练数据集所在的输入空间中,递归地将每个区域划分为两个子区域并决定每个子区域上的输出值,构建二叉树。
(1)选择最优切分变量j与切分点s,求解:
遍历变量j,对固定的切分变量j扫描切分点s,选择使上式达到最小值的对;
(2)用选定的对划分区域并决定相应的输出值:
x
∈
R
m
,
m
=
1
,
2
x\in R_m,m={1,2}
x∈Rm,m=1,2
其中,由式子可以看出,
c
m
^
\hat{c_m}
cm^为节点m中样本的平均值。
(3)继续对两个子区域调用步骤(1),(2),直到满足停止条件;
(4)将输入空间划分为M个区域,生成决策树:
即,当使用样本进行预测时,样本最终落入的叶节点的均值作为最终的预测值。
决策树防止过拟合手段
剪枝处理(pruning)是决策树学习算法中对付“过拟合”的主要手段, 在决策树学习中, 为了尽可能正确分类训练样本, 节点划分过程不断重复, 有时候会造成决策树分支过多, 以至于将训练样本集自身特点当作泛化特点, 而导致过拟合。 因此可以采用剪枝处理来去掉一些分支来降低过拟合的风险。 剪枝的基本策略有预剪枝(prepruning)和后剪枝(postprunint).
预剪枝是指在决策树生成过程中, 在每个节点划分前先估计其划分后的泛化性能, 如果不能提升, 则停止划分, 将当前节点标记为叶结点。
后剪枝是指生成决策树以后,再自下而上对非叶结点进行考察, 若将此节点标记为叶结点可以带来泛化性能提升, 则修改之.
模型评估
自助法(bootstrap):
训练集是对于原数据集的有放回抽样,如果原始数据集N,可以证明,大小为N的自助样本大约包含原数据63.2%的记录。当N充分大的时候,
1
−
(
1
−
1
/
N
)
N
1-(1-1/N)^N
1−(1−1/N)N 概率逼近
1
−
e
−
1
=
0.632
1-e^{-1}=0.632
1−e−1=0.632。抽样 b 次,产生 b 个bootstrap样本,则,总准确率为(accs为包含所有样本计算的准确率)
a
c
c
b
o
o
t
=
1
/
b
∑
i
=
1
b
(
0.632
×
ε
i
+
0.368
×
a
c
c
s
)
accboot=1/b∑_{i=1}^b(0.632×ε_i+0.368×accs)
accboot=1/b∑i=1b(0.632×εi+0.368×accs)
准确度的区间估计:
将分类问题看做二项分布,则有:
令 X 为模型正确分类,p 为准确率,X 服从均值 Np、方差 Np(1-p)的二项分布。
a
c
c
=
X
/
N
acc=X/N
acc=X/N为均值 p,方差
p
(
1
−
p
)
/
N
p(1-p)/N
p(1−p)/N的二项分布。acc 的置信区间:
sklearn参数详解
'''
scikit-learn中有两类决策树,它们均采用优化的CART决策树算法。
'''
from sklearn.tree import DecisionTreeRegressor
'''
回归决策树
'''
DecisionTreeRegressor(criterion="mse",
splitter="best",
max_depth=None,
min_samples_split=2,
min_samples_leaf=1,
min_weight_fraction_leaf=0.,
max_features=None,
random_state=None,
max_leaf_nodes=None,
min_impurity_decrease=0.,
min_impurity_split=None,
presort=False)
'''
参数含义:
1.criterion:string, optional (default="mse")
它指定了切分质量的评价准则。默认为'mse'(mean squared error)。
2.splitter:string, optional (default="best")
它指定了在每个节点切分的策略。有两种切分策咯:
(1).splitter='best':表示选择最优的切分特征和切分点。
(2).splitter='random':表示随机切分。
3.max_depth:int or None, optional (default=None)
指定树的最大深度。如果为None,则表示树的深度不限,直到
每个叶子都是纯净的,即叶节点中所有样本都属于同一个类别,
或者叶子节点中包含小于min_samples_split个样本。
4.min_samples_split:int, float, optional (default=2)
整数或者浮点数,默认为2。它指定了分裂一个内部节点(非叶子节点)
需要的最小样本数。如果为浮点数(0到1之间),最少样本分割数为ceil(min_samples_split * n_samples)
5.min_samples_leaf:int, float, optional (default=1)
整数或者浮点数,默认为1。它指定了每个叶子节点包含的最少样本数。
如果为浮点数(0到1之间),每个叶子节点包含的最少样本数为ceil(min_samples_leaf * n_samples)
6.min_weight_fraction_leaf:float, optional (default=0.)
它指定了叶子节点中样本的最小权重系数。默认情况下样本有相同的权重。
7.max_feature:int, float, string or None, optional (default=None)
可以是整数,浮点数,字符串或者None。默认为None。
(1).如果是整数,则每次节点分裂只考虑max_feature个特征。
(2).如果是浮点数(0到1之间),则每次分裂节点的时候只考虑int(max_features * n_features)个特征。
(3).如果是字符串'auto',max_features=n_features。
(4).如果是字符串'sqrt',max_features=sqrt(n_features)。
(5).如果是字符串'log2',max_features=log2(n_features)。
(6).如果是None,max_feature=n_feature。
8.random_state:int, RandomState instance or None, optional (default=None)
(1).如果为整数,则它指定了随机数生成器的种子。
(2).如果为RandomState实例,则指定了随机数生成器。
(3).如果为None,则使用默认的随机数生成器。
9.max_leaf_nodes:int or None, optional (default=None)
(1).如果为None,则叶子节点数量不限。
(2).如果不为None,则max_depth被忽略。
10.min_impurity_decrease:float, optional (default=0.)
如果节点的分裂导致不纯度的减少(分裂后样本比分裂前更加纯净)大于或等于min_impurity_decrease,则分裂该节点。
个人理解这个参数应该是针对分类问题时才有意义。这里的不纯度应该是指基尼指数。
回归生成树采用的是平方误差最小化策略。分类生成树采用的是基尼指数最小化策略。
加权不纯度的减少量计算公式为:
min_impurity_decrease=N_t / N * (impurity - N_t_R / N_t * right_impurity
- N_t_L / N_t * left_impurity)
其中N是样本的总数,N_t是当前节点的样本数,N_t_L是分裂后左子节点的样本数,
N_t_R是分裂后右子节点的样本数。impurity指当前节点的基尼指数,right_impurity指
分裂后右子节点的基尼指数。left_impurity指分裂后左子节点的基尼指数。
11.min_impurity_split:float
树生长过程中早停止的阈值。如果当前节点的不纯度高于阈值,节点将分裂,否则它是叶子节点。
这个参数已经被弃用。用min_impurity_decrease代替了min_impurity_split。
12.presort: bool, optional (default=False)
指定是否需要提前排序数据从而加速寻找最优切分的过程。设置为True时,对于大数据集
会减慢总体的训练过程;但是对于一个小数据集或者设定了最大深度的情况下,会加速训练过程。
属性:
1.feature_importances_ : array of shape = [n_features]
特征重要性。该值越高,该特征越重要。
特征的重要性为该特征导致的评价准则的(标准化的)总减少量。它也被称为基尼的重要性
2.max_feature_:int
max_features推断值。
3.n_features_:int
执行fit的时候,特征的数量。
4.n_outputs_ : int
执行fit的时候,输出的数量。
5.tree_ : 底层的Tree对象。
Notes:
控制树大小的参数的默认值(例如``max_depth``,``min_samples_leaf``等)导致完全成长和未剪枝的树,
这些树在某些数据集上可能表现很好。为减少内存消耗,应通过设置这些参数值来控制树的复杂度和大小。
方法:
1.fit(X,y):训练模型。
2.predict(X):预测。
'''
from sklearn.tree import DecisionTreeClassifier
'''
分类决策树
'''
DecisionTreeClassifier(criterion="gini",
splitter="best",
max_depth=None,
min_samples_split=2,
min_samples_leaf=1,
min_weight_fraction_leaf=0.,
max_features=None,
random_state=None,
max_leaf_nodes=None,
min_impurity_decrease=0.,
min_impurity_split=None,
class_weight=None,
presort=False)
'''
参数含义:
1.criterion:string, optional (default="gini")
(1).criterion='gini',分裂节点时评价准则是Gini指数。
(2).criterion='entropy',分裂节点时的评价指标是信息增益。
2.max_depth:int or None, optional (default=None)。指定树的最大深度。
如果为None,表示树的深度不限。直到所有的叶子节点都是纯净的,即叶子节点
中所有的样本点都属于同一个类别。或者每个叶子节点包含的样本数小于min_samples_split。
3.splitter:string, optional (default="best")。指定分裂节点时的策略。
(1).splitter='best',表示选择最优的分裂策略。
(2).splitter='random',表示选择最好的随机切分策略。
4.min_samples_split:int, float, optional (default=2)。表示分裂一个内部节点需要的做少样本数。
(1).如果为整数,则min_samples_split就是最少样本数。
(2).如果为浮点数(0到1之间),则每次分裂最少样本数为ceil(min_samples_split * n_samples)
5.min_samples_leaf: int, float, optional (default=1)。指定每个叶子节点需要的最少样本数。
(1).如果为整数,则min_samples_split就是最少样本数。
(2).如果为浮点数(0到1之间),则每个叶子节点最少样本数为ceil(min_samples_leaf * n_samples)
6.min_weight_fraction_leaf:float, optional (default=0.)
指定叶子节点中样本的最小权重。
7.max_features:int, float, string or None, optional (default=None).
搜寻最佳划分的时候考虑的特征数量。
(1).如果为整数,每次分裂只考虑max_features个特征。
(2).如果为浮点数(0到1之间),每次切分只考虑int(max_features * n_features)个特征。
(3).如果为'auto'或者'sqrt',则每次切分只考虑sqrt(n_features)个特征
(4).如果为'log2',则每次切分只考虑log2(n_features)个特征。
(5).如果为None,则每次切分考虑n_features个特征。
(6).如果已经考虑了max_features个特征,但还是没有找到一个有效的切分,那么还会继续寻找
下一个特征,直到找到一个有效的切分为止。
8.random_state:int, RandomState instance or None, optional (default=None)
(1).如果为整数,则它指定了随机数生成器的种子。
(2).如果为RandomState实例,则指定了随机数生成器。
(3).如果为None,则使用默认的随机数生成器。
9.max_leaf_nodes: int or None, optional (default=None)。指定了叶子节点的最大数量。
(1).如果为None,叶子节点数量不限。
(2).如果为整数,则max_depth被忽略。
10.min_impurity_decrease:float, optional (default=0.)
如果节点的分裂导致不纯度的减少(分裂后样本比分裂前更加纯净)大于或等于min_impurity_decrease,则分裂该节点。
加权不纯度的减少量计算公式为:
min_impurity_decrease=N_t / N * (impurity - N_t_R / N_t * right_impurity
- N_t_L / N_t * left_impurity)
其中N是样本的总数,N_t是当前节点的样本数,N_t_L是分裂后左子节点的样本数,
N_t_R是分裂后右子节点的样本数。impurity指当前节点的基尼指数,right_impurity指
分裂后右子节点的基尼指数。left_impurity指分裂后左子节点的基尼指数。
11.min_impurity_split:float
树生长过程中早停止的阈值。如果当前节点的不纯度高于阈值,节点将分裂,否则它是叶子节点。
这个参数已经被弃用。用min_impurity_decrease代替了min_impurity_split。
12.class_weight:dict, list of dicts, "balanced" or None, default=None
类别权重的形式为{class_label: weight}
(1).如果没有给出每个类别的权重,则每个类别的权重都为1。
(2).如果class_weight='balanced',则分类的权重与样本中每个类别出现的频率成反比。
计算公式为:n_samples / (n_classes * np.bincount(y))
(3).如果sample_weight提供了样本权重(由fit方法提供),则这些权重都会乘以sample_weight。
13.presort:bool, optional (default=False)
指定是否需要提前排序数据从而加速训练中寻找最优切分的过程。设置为True时,对于大数据集
会减慢总体的训练过程;但是对于一个小数据集或者设定了最大深度的情况下,会加速训练过程。
属性:
1.classes_:array of shape = [n_classes] or a list of such arrays
类别的标签值。
2.feature_importances_ : array of shape = [n_features]
特征重要性。越高,特征越重要。
特征的重要性为该特征导致的评价准则的(标准化的)总减少量。它也被称为基尼的重要性
3.max_features_ : int
max_features的推断值。
4.n_classes_ : int or list
类别的数量
5.n_features_ : int
执行fit后,特征的数量
6.n_outputs_ : int
执行fit后,输出的数量
7.tree_ : Tree object
树对象,即底层的决策树。
方法:
1.fit(X,y):训练模型。
2.predict(X):预测
3.predict_log_poba(X):预测X为各个类别的概率对数值。
4.predict_proba(X):预测X为各个类别的概率值。
'''