机器学习笔记三——决策树

一、决策树

1.1 基本思想

分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点有向边组成。结点有两种类型:内部结点和叶结点。内部结点表示一个特征或属性,叶结点表示一个类。

用决策树分类,从根节点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值。如此递归的对实例进行测试并分配,直至达到叶结点,最后将实例分到叶结点的类中。

决策树学习通过包括3个步骤:特征选择决策树的生成决策树的修剪

1.2 特征选择

特征选择,即选取某个特征,然后根据这个特征对实例点进行分类。那么该如何选择特征呢?

1.2.1 熵

熵表示随机变量不确定性的度量。设 X X X是一个取有限个值的离散随机变量,其概率分布为: P ( X = x i ) = p i , i = 1 , 2 , ⋯   , n (1) P(X=x_i)=p_i, i=1,2,\cdots,n\tag1 P(X=xi)=pi,i=1,2,,n(1)
则随机变量 X X X的熵为: H ( X ) = − ∑ i = 1 n p i log ⁡ p i (2) H(X)=-\sum\limits_{i=1}^np_i\log p_i\tag2 H(X)=i=1npilogpi(2)
p i = 0 p_i=0 pi=0,定义 p i log ⁡ p i = 0 p_i\log p_i=0 pilogpi=0。根据定义,随机变量 X X X的熵与 X X X的取值无关,只取决于 X X X的分布,因此有时也记作 H ( p ) = − ∑ i = 1 n p i log ⁡ p i (3) H(p)=-\sum\limits_{i=1}^np_i\log p_i\tag3 H(p)=i=1npilogpi(3)
熵越大,随机变量的不确定性越大

1.2.2 条件熵

设有随机变量 ( X , Y ) (X, Y) (X,Y),其联合概率分布为 P ( X = x i , Y = y j ) = p i j , i = 1 , 2 , ⋯   , n (4) P(X=x_i, Y=y_j)=p_{ij}, i=1, 2, \cdots, n\tag4 P(X=xi,Y=yj)=pij,i=1,2,,n(4)
条件熵 H ( Y ∣ X ) H(Y|X) H(YX)表示在已知随机变量 X X X的条件下随机变量 Y Y Y的不确定性。随机变量 X X X给定的条件下随机变量 Y Y Y的条件熵定义为 H ( Y ∣ X ) = ∑ i = 1 n p i H ( Y ∣ X = x i ) (5) H(Y|X)=\sum\limits_{i=1}^np_iH(Y|X=x_i)\tag5 H(YX)=i=1npiH(YX=xi)(5)
这里 p i = P ( X = x i ) , i = 1 , 2 , ⋯   , n p_i=P(X=x_i), i=1, 2, \cdots, n pi=P(X=xi),i=1,2,,n

1.2.3 信息增益

信息增益表示得知特征 X X X的信息而使得类 Y Y Y的信息的不确定性减少的程度。

特征 A A A

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值