机器学习之决策树

声明:
1、本文仅为自己相关的学习笔记
2、文中所引文献,已在参考资料中说明,但部分来源于网络,出处无可考究,如果文中引用了您的原创,请您私信我
3、如果内容有错误或者不准确的地方请大家指正

决策树

决策树是一种基本的分类于回归方法,这里主要讨论分类的决策树,分类的决策树呈树形结果,在分类过程中,表示基于对实例进行分类的过程,它可以认为是 ifthen i f − t h e n 规则的集合,也可以定义为定义在特征空间于类空间上的条件概率分布。决策树的基本思想是以信息熵为度量构建一棵熵值下降最快的树,到叶子节点的熵值为零,此时没有叶子节点中的实例属于同一个类别。决策树学习通常包括3个步骤,特征选择,决策数的生成,决策树的修改。

决策树算法的优点

决策树的最大优点是,它可以进行自学习,在学习的过程中,使用者不需要了解过多的背景,只需要对训练实例进行比较好的标注,就能够进行学习。决策树属于监督学习,学习到的模型属于判别模型。
决策树是一个贪心的算法,可能找不到最好的树。

基础知识

信息论中熵 (entropy) ( e n t r o p y ) 表示随机变量不确定性的度量。熵越大表示随机变量的不确定性越大。设 X X 是一个取有限个值的离散随机变量,其概率分布为

P(X=xi)=pi,i=1,2...n
则随机变量 X X 的熵定义为
H(X)=i=1Npilogpi

条件熵

条件熵 H(Y|X) H ( Y | X ) ,随机变量 X X 给定的情况下随机变量Y的条件熵 H(Y|X) H ( Y | X ) 定义为给定条件下 Y Y 的条件概率分布的熵对X的数学期望

H(Y|X)=H(X,Y)H(x) H ( Y | X ) = H ( X , Y ) − H ( x )

=x,yp(x,y)logp(x,y)+xp(x)logp(x) = − ∑ x , y p ( x , y ) l o g p ( x , y ) + ∑ x p ( x ) l o g p ( x )

=x,yp(x,y)logp(x,y)+x(yp(x,y))logp(x) = − ∑ x , y p ( x , y ) l o g p ( x , y ) + ∑ x ( ∑ y p ( x , y ) ) l o g p ( x )

=x,yp(x,y)logp(x,y)+x,yp(x,y)logp(x) = − ∑ x , y p ( x , y ) l o g p ( x , y ) + ∑ x , y p ( x , y ) l o g p ( x )

=x,yp(x,y)logp(x,y)p(x) = − ∑ x , y p ( x , y ) l o g p ( x , y ) p ( x )

=x,yp(x,y)logp(y|x) = − ∑ x , y p ( x , y ) l o g p ( y | x )

=xyp(x)p(y|x)logp(y|x) = − ∑ x ∑ y p ( x ) p ( y | x ) l o g p ( y | x )

=xp(x)yp(y|x)logp(y|x) = − ∑ x p ( x ) ∑ y p ( y | x ) l o g p ( y | x )

=xp(x)H(Y|X=x) = ∑ x p ( x ) H ( Y | X = x )

决策树生成算法

决策树的关键是在当前状态选择哪个函数最为分类依据,依据不同的目标函数建立决策树主要有三种算法
ID3(Iterative Dichotomiser),
C4.5
CART(Classification And Regression Tree)

ID3

信息增益:表示得知特征 A A 的信息而使集合D不确定性减少的程度

g(D,A)=H(D)H(D|A) g ( D , A ) = H ( D ) − H ( D | A )

这即为训练集 D D 和特征A的互信息。

C4.5

信息增益率
信息增益可能对取值数目较多的属性有所偏好,为了解决这以问题采用信息增益比

gr(D,A)=g(D,A)/H(A) g r ( D , A ) = g ( D , A ) / H ( A )

其中
HA(D)=ni=1|Di||D|log|Di||D| H A ( D ) = − ∑ i = 1 n | D i | | D | l o g | D i | | D |

CART

基尼指数
基尼指数的定义

Gini(p)=Kk=1pk(1pk)=1Kk=1p2k G i n i ( p ) = ∑ k = 1 K p k ( 1 − p k ) = 1 − ∑ k = 1 K p k 2

基尼指数反映了从数据集$$中随机抽取两个样本,其类别标记不一致的概率,因此基尼指数越小,则数据集的纯度越高

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值