决策树(
Decision Tree
)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各 种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。
1重要参数
1.1 criterion
为了要将表格转化为一棵树,决策树需要找出最佳节点和最佳的分枝方法,对分类树来说,衡量这个
“
最佳
”
的指标
叫做
“
不纯度
”
。通常来说,不纯度越低,决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法上的核心
大多是围绕在对某个不纯度相关指标的最优化上。
不纯度基于节点来计算,树中的每个节点都会有一个不纯度,并且子节点的不纯度一定是低于父节点的,也就是
说,在同一棵决策树上,叶子节点的不纯度一定是最低的。
Criterion
这个参数正是用来决定不纯度的计算方法的。
sklearn
提供了两种选择:
1
)输入
”entropy“
,使用
信息熵
(
Entropy
)
2
)输入
”gini“
,使用
基尼系数
(
Gini Impurity
)
1.2 random_state & splitter
random_state
用来设置分枝中的随机模式的参数,默认
None
,在高维度时随机性会表现更明显,低维度的数据
(比如鸢尾花数据集),随机性几乎不会显现。输入任意整数,会一直长出同一棵树,让模型稳定下来。
splitter
也是用来控制决策树中的随机选项的,有两种输入值,输入
”best"
,决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝(重要性可以通过属性feature_importances_
查看),输入
“random"
,决策树在分枝时会更加随机,树会因为含有更多的不必要信息而更深更大,并因这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。当你预测到你的模型会过拟合,用这两个参数来帮助你降低树建成之后过拟合的可能性
1.3剪枝参数
在不加限制的情况下,一棵决策树会生长到衡量不纯度的指标最优,或者没有更多的特征可用为止。这样的决策树
往往会过拟合,这就是说,
它会在训练集上表现很好,在测试集上却表现糟糕。
我们收集的样本数据不可能和整体的状况完全一致,因此当一棵决策树对训练数据有了过于优秀的解释性,它找出的规则必然包含了训练样本中的噪声,并使它对未知数据的拟合程度不足。
max_depth
限制树的最大深度,超过设定深度的树枝全部剪掉
这是用得最广泛的剪枝参数,在高维度低样本量时非常有效。决策树多生长一层,对样本量的需求会增加一倍,所以限制树深度能够有效地限制过拟合。在集成算法中也非常实用。实际使用时,建议从=3
开始尝试,看看拟合的效果再决定是否增加设定深度。
min_samples_leaf & min_samples_split
min_samples_leaf
限定,一个节点在分枝后的每个子节点都必须包含至少
min_samples_leaf
个训练样本,否则分枝就不会发生,或者,分枝会朝着满足每个子节点都包含min_samples_leaf
个样本的方向去发生一般搭配max_depth
使用,在回归树中有神奇的效果,可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合,设置得太大就会阻止模型学习数据。一般来说,建议从=5
开始使用。如果叶节点中含有的样本量变化很
大,建议输入浮点数作为样本量的百分比来使用。同时,这个参数可以保证每个叶子的最小尺寸,可以在回归问题中避免低方差,过拟合的叶子节点出现。对于类别不多的分类问题,=1
通常就是最佳选择。min_samples_split限定,一个节点必须要包含至少
min_samples_split
个训练样本,这个节点才允许被分枝,否则分枝就不会发生。
max_features & min_impurity_decrease
一般
max_depth
使用,用作树的
”
精修
“
max_features
限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃。和
max_depth
异曲同工, max_features是用来限制高维度数据的过拟合的剪枝参数,但其方法比较暴力,是直接限制可以使用的特征数量 而强行使决策树停下的参数,在不知道决策树中的各个特征的重要性的情况下,强行设定这个参数可能会导致模型 学习不足。如果希望通过降维的方式防止过拟合,建议使用PCA
,
ICA
或者特征选择模块中的降维算法。
min_impurity_decrease
限制信息增益的大小,信息增益小于设定数值的分枝不会发生。这是在
0.19
版本中更新的功能,在0.19
版本之前时使用
min_impurity_split
。
class_weight & min_weight_fraction_leaf
完成样本标签平衡的参数。样本不平衡是指在一组数据集中,标签的一类天生占有很大的比例。比如说,在银行要
判断
“
一个办了信用卡的人是否会违约
”
,就是是
vs
否(
1%
:
99%
)的比例。这种分类状况下,即便模型什么也不
做,全把结果预测成
“
否
”
,正确率也能有
99%
。因此我们要使用
class_weight
参数对样本标签进行一定的均衡,给 少量的标签更多的权重,让模型更偏向少数类,向捕获少数类的方向建模。该参数默认None
,此模式表示自动给 与数据集中的所有标签相同的权重。
有了权重之后,样本量就不再是单纯地记录数目,而是受输入的权重影响了,因此这时候剪枝,就需要搭配
min_ weight_fraction_leaf这个基于权重的剪枝参数来使用。另请注意,基于权重的剪枝参数(例如
min_weight_ fraction_leaf)将比不知道样本权重的标准(比如
min_samples_leaf
)更少偏向主导类。如果样本是加权的,则使用基于权重的预修剪标准来更容易优化树结构,这确保叶节点至少包含样本权重的总和的一小部分。