西瓜书第四章学习

第四章 决策树

4.1算发原理

从逻辑角度来讲,决策树就是一堆if else语句的组合,从几何角度来讲,根据某种准则划分特征空间。无论怎样,目的都还是让我们的样本越来越纯。

4.2定义:

自信息 I(x)=-logb(p(x))

当自信息中b=2时自信息单位为bit,当b=e时自信息单位为nat。

信息熵(自信息的期望):度量随机变量X的不确定性,信息熵越大越不确定

H(x)=E[I(x)]=-Σp(x)㏒b(p(x))

计算信息熵时约定,若p(x)=0,则p(x)㏒b(p(x))=0。当X的某个取值的概率为一时信息熵最小(最确定),其值为0,当X的各个取值均等时信息熵最大(最不确定),其值为logb|x|,其中|x|表示x可能取值的个数。

将样本类别标记y视作随机变量,各个类别在样本集合D的占比pk(k=1,2..|y|)视作各个类别取值的概率,则样本集合D(随机变量)的信息熵(底数b取值2)为

Ent(D)=--Σpk㏒2(pk)

此时的信息熵所代表的不确定性可以转换理解为集合内样本纯度。

例如划分出一个特征空间,在一个集合里面全都是正样本或者负样本时最纯,即y取到某一个值k时概率是1,此时既是信息熵(不确定性)最小的时候,也是样本最纯的时候。

4.3条件熵

条件熵(y的信息熵关于概率分布x的期望):在已知x后y的不确定性

H(y|x)=Σp(x)H(Y|X=x)

从单个属性(特征)a的角度来说,假设其可能取值为{a1,a2..av},Dv表示属性a取值为av的样本集合,|dv|/D表示占比,那么在已知属性a的取值后,样本条件D的条件熵是

Σ|Dv|/|D|Ent(Dv)

4.4信息增益

在已知属性(特征)a的取值后y的不确定性减少的量,即纯度的提升

Gain(D,a)=Ent(D)(信息熵)-Σ|Dv|/|D|Ent(Dv)(条件熵)

ID3决策树:以信息增益为准则来选择划分属性的决策树

a*=arg max Gain(D,a)

C4.5决策树

信息增益准则对可能取值数目较多的属性有所偏好(在信息熵,条件熵很小几乎为0时),为减少这种偏好看带来的不便影响,C4.5决策树使用增益率带来信息增益,增益率定义为

Gain_ratio(D,a)=Grain(D,a)/IV(a)

其中

IV(a)=-Σ|Dv|/|D|log2|Dv|/|D|

称为属性a的固有值,a的可能取值个数V越大,通常其固有值IV(a)越大。但是,增益率对可能取值数目较少的属性有所偏好

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值