机器学习笔记(八)——决策树模型的特征选择

一、引言

决策树构建过程中的特征选择是非常重要的一步。特征选择是决定用哪个特征来划分特征空间,特征选择是要选出对训练数据集具有分类能力的特征,这样可以提高决策树的学习效率。如果利用某一个特征进行分类与随机分类的结果没有很大的差别,则称这个特征是没有分类能力的。这样的特征可以丢弃。常用的特征选择的准则是信息增益和信息增益比。

二、信息增益

要了解信息增益,我们要先知道熵与条件熵的定义。

2.1 熵

熵是无序度的度量,在信息论和统计中,熵表示随机变量不确定性的度量。假设 X 是一个取有限值的离散型随机变量,它的概率分布如下:

P(X=xi)=pi,i=1,2,,n

则随机变量 X 的熵定义为:
H(X)=i=1npilogpi

pi=00log0=0 ,从上式中可以看到,熵只依赖于 X 的分布,而与X的取值没有关系。熵越大,随机变量的不确定性就越大。故可以将 XH(p):

H(p)=i=1npilogpi

2.2 条件熵

设有随机变量 (X,Y) ,其联合概率分布为:

P(X=xi,Y=yj)=pij,i=1,2,,n;j=i=1,2,,m

条件熵 H(Y|X) 表示在已知随机变量 X 的条件下随机变量Y的不确定性。随机变量 X 给定的条件下随机变量Y的条件熵 H(Y|X) 定义为 X 给定条件下Y的条件概率分布的熵对 X 的数学期望:
H(Y|X)=i=1npiH(Y|X=xi),pi=P(X=xi),i=1,2,,n

当熵和条件熵中的概率由数据估计得来时,所对应的熵和条件熵称为经验熵和经验条件熵。

2.3 信息增益

信息增益表示得知特征 X 的信息而使得类Y的信息不确定性减少的程度。
信息增益
ADg(D,A)DH(D)ADH(D|A)

g(D,A)=H(D)H(D|A)

信息增益大的特征具有更强的分类能力。
根据信息增益准则进行特征选择的方法是:对训练数据集 D ,计算其每个特征的信息增益,并比较它们的大小,选择最大的特征。

三、信息增益比

通过信息增益选取特征的时候,存在偏向于选择取值较多的特征的问题。使用信息增益比可以纠正这一问题。

信息增益比
ADgR(D,A)g(D,A)DAHA(D):

gR(D,A)=g(D,A)HA(D)HA(D)=i=1n|Di||D|log2|Di||D|

n 是特征A取值的个数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值