声明:
1、本文仅为自己相关的学习笔记
2、文中所引文献,已在参考资料中说明,但部分来源于网络,出处无可考究,如果文中引用了您的原创,请您私信我
3、如果内容有错误或者不准确的地方请大家指正
决策树
决策树是一种基本的分类于回归方法,这里主要讨论分类的决策树,分类的决策树呈树形结果,在分类过程中,表示基于对实例进行分类的过程,它可以认为是 if−then i f − t h e n 规则的集合,也可以定义为定义在特征空间于类空间上的条件概率分布。决策树的基本思想是以信息熵为度量构建一棵熵值下降最快的树,到叶子节点的熵值为零,此时没有叶子节点中的实例属于同一个类别。决策树学习通常包括3个步骤,特征选择,决策数的生成,决策树的修改。
决策树算法的优点
决策树的最大优点是,它可以进行自学习,在学习的过程中,使用者不需要了解过多的背景,只需要对训练实例进行比较好的标注,就能够进行学习。决策树属于监督学习,学习到的模型属于判别模型。
决策树是一个贪心的算法,可能找不到最好的树。
基础知识
熵
信息论中熵
(entropy)
(
e
n
t
r
o
p
y
)
表示随机变量不确定性的度量。熵越大表示随机变量的不确定性越大。设
X
X
是一个取有限个值的离散随机变量,其概率分布为
则随机变量 X X 的熵定义为
条件熵
条件熵
H(Y|X)
H
(
Y
|
X
)
,随机变量
X
X
给定的情况下随机变量的条件熵
H(Y|X)
H
(
Y
|
X
)
定义为给定条件下
Y
Y
的条件概率分布的熵对的数学期望
决策树生成算法
决策树的关键是在当前状态选择哪个函数最为分类依据,依据不同的目标函数建立决策树主要有三种算法
ID3(Iterative Dichotomiser),
C4.5
CART(Classification And Regression Tree)
ID3
信息增益:表示得知特征
A
A
的信息而使集合不确定性减少的程度
这即为训练集 D D 和特征的互信息。
C4.5
信息增益率
信息增益可能对取值数目较多的属性有所偏好,为了解决这以问题采用信息增益比
其中
HA(D)=−∑ni=1|Di||D|log|Di||D| H A ( D ) = − ∑ i = 1 n | D i | | D | l o g | D i | | D |
CART
基尼指数
基尼指数的定义
基尼指数反映了从数据集$$中随机抽取两个样本,其类别标记不一致的概率,因此基尼指数越小,则数据集的纯度越高