机器学习之决策树

最新推荐文章于 2024-05-03 11:52:45 发布

飞虹舞毓

最新推荐文章于 2024-05-03 11:52:45 发布

阅读量200

点赞数

分类专栏：机器学习文章标签：机器学习决策树

本文链接：https://blog.csdn.net/supinyu/article/details/80178467

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

声明：
1、本文仅为自己相关的学习笔记
2、文中所引文献，已在参考资料中说明，但部分来源于网络，出处无可考究，如果文中引用了您的原创，请您私信我
3、如果内容有错误或者不准确的地方请大家指正

决策树

决策树

决策树是一种基本的分类于回归方法，这里主要讨论分类的决策树，分类的决策树呈树形结果，在分类过程中，表示基于对实例进行分类的过程，它可以认为是 $if-then$ 规则的集合，也可以定义为定义在特征空间于类空间上的条件概率分布。决策树的基本思想是以信息熵为度量构建一棵熵值下降最快的树，到叶子节点的熵值为零，此时没有叶子节点中的实例属于同一个类别。决策树学习通常包括3个步骤，特征选择，决策数的生成，决策树的修改。

决策树算法的优点

决策树的最大优点是，它可以进行自学习，在学习的过程中，使用者不需要了解过多的背景，只需要对训练实例进行比较好的标注，就能够进行学习。决策树属于监督学习，学习到的模型属于判别模型。
决策树是一个贪心的算法，可能找不到最好的树。

基础知识

熵

信息论中熵 $(entropy)$ 表示随机变量不确定性的度量。熵越大表示随机变量的不确定性越大。设 $X$ 是一个取有限个值的离散随机变量，其概率分布为

P (X = x_{i}) = p_{i}, i = 1, 2... n

$P(X=x_{i})=p_{i},i = 1,2...n$
则随机变量

X X $X$ 的熵定义为

H (X) = - \sum_{i = 1}^{N} p_{i} l o g p_{i}

$H(X)=-\sum_{i=1}^{N}p_{i}logp_{i}$

条件熵

条件熵 $H(Y|X)$ ，随机变量 $X$ 给定的情况下随机变量 $Y$ 的条件熵 $H(Y|X)$ 定义为给定条件下 $Y$ 的条件概率分布的熵对 $X$ 的数学期望

H(Y|X)=H(X,Y)−H(x) H ( Y | X ) = H ( X , Y ) − H ( x ) $H(Y|X) = H(X,Y) - H(x)$

=−∑x,yp(x,y)logp(x,y)+∑xp(x)logp(x) = − ∑ x , y p ( x , y ) l o g p ( x , y ) + ∑ x p ( x ) l o g p ( x ) $= -\sum_{x,y}p(x,y)logp(x,y)+\sum_{x}p(x)logp(x)$

=−∑x,yp(x,y)logp(x,y)+∑x(∑yp(x,y))logp(x) = − ∑ x , y p ( x , y ) l o g p ( x , y ) + ∑ x ( ∑ y p ( x , y ) ) l o g p ( x ) $= -\sum_{x,y}p(x,y)logp(x,y)+\sum_{x}(\sum_{y}p(x,y))logp(x)$

=−∑x,yp(x,y)logp(x,y)+∑x,yp(x,y)logp(x) = − ∑ x , y p ( x , y ) l o g p ( x , y ) + ∑ x , y p ( x , y ) l o g p ( x ) $= -\sum_{x,y}p(x,y)logp(x,y)+\sum_{x,y}p(x,y)logp(x)$

=−∑x,yp(x,y)logp(x,y)p(x) = − ∑ x , y p ( x , y ) l o g p ( x , y ) p ( x ) $= -\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)}$

=−∑x,yp(x,y)logp(y|x) = − ∑ x , y p ( x , y ) l o g p ( y | x ) $= -\sum_{x,y}p(x,y)logp(y|x)$

=−∑x∑yp(x)p(y|x)logp(y|x) = − ∑ x ∑ y p ( x ) p ( y | x ) l o g p ( y | x ) $= -\sum_{x}\sum_{y}p(x)p(y|x)logp(y|x)$

=−∑xp(x)∑yp(y|x)logp(y|x) = − ∑ x p ( x ) ∑ y p ( y | x ) l o g p ( y | x ) $= -\sum_{x}p(x)\sum_{y}p(y|x)logp(y|x)$

=∑xp(x)H(Y|X=x) = ∑ x p ( x ) H ( Y | X = x ) $= \sum_{x}p(x)H(Y|X=x)$

决策树生成算法

决策树的关键是在当前状态选择哪个函数最为分类依据，依据不同的目标函数建立决策树主要有三种算法
ID3(Iterative Dichotomiser),
C4.5
CART(Classification And Regression Tree)

ID3

信息增益：表示得知特征 $A$ 的信息而使集合 $D$ 不确定性减少的程度

g(D,A)=H(D)−H(D|A) g ( D , A ) = H ( D ) − H ( D | A ) $g(D,A) = H(D) - H(D|A)$
这即为训练集

D D $D$ 和特征

A

$A$ 的互信息。

C4.5

信息增益率
信息增益可能对取值数目较多的属性有所偏好，为了解决这以问题采用信息增益比

gr(D,A)=g(D,A)/H(A) g r ( D , A ) = g ( D , A ) / H ( A ) $g_{r}(D,A) = g(D,A)/H(A)$
其中

HA(D)=−∑ni=1|Di||D|log|Di||D| H A ( D ) = − ∑ i = 1 n | D i | | D | l o g | D i | | D | $H_{A}(D) = - \sum_{i=1}^{n}\frac{|D_{i}|}{|D|}log\frac{|D_{i}|}{|D|}$

CART

基尼指数
基尼指数的定义

Gini(p)=∑Kk=1pk(1−pk)=1−∑Kk=1p2k G i n i ( p ) = ∑ k = 1 K p k ( 1 − p k ) = 1 − ∑ k = 1 K p k 2 $Gini(p) = \sum_{k=1}^{K}p_{k}(1-p_{k}) = 1 - \sum_{k=1}^{K}p_{k}^2$
基尼指数反映了从数据集$$中随机抽取两个样本，其类别标记不一致的概率，因此基尼指数越小，则数据集的纯度越高

飞虹舞毓

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之决策树

声明： 1、本文仅为自己相关的学习笔记 2、文中所引文献，已在参考资料中说明，但部分来源于网络，出处无可考究，如果文中引用了您的原创，请您私信我 3、如果内容有错误或者不准确的地方请大家指正决策树决策树算法的优点基础知识熵条件熵决策树生成算法ID3C4.5CART决策树决策树是一种基本的分类于回归方法，这里主要讨论分类的决策树，分类的决...
复制链接

扫一扫