机器学习笔记(XIII)决策树(III)连续与缺失值

连续值处理

对于连续属性的可取数目不再有限,因此,不能直接根据连续属性的可取值来对结点进行划分。

连续离散化之二分法

具体做法

对于给定的样本集 D 和连续属性a,假定 a D上出现了 n 个不同的取值,将这些值从小到大进行排序,记为{a1,a2,,an}。基于划分点 t 可将D分为子集 Dt D+t
aiDt ait
aiD+t ai>t
其中 i[1,n]

处理方式

对相邻的属性取值 ai ai+1 来说,在区间 [ai,ai+1) 中任意的取值所产生的划分结果相同,因此对于连续的属性 a 。所以可以取区间[ai,ai+1)的中点来作为划分点即 ai+ai+12
如此便产生了 n1 个划分点。元素候选划分点集合

Ta={ai+ai+121in1}

此时可以像离散属性值一样来考察这些划分点,选取最优的划分点进行样本集合的划分。
此时信息增益可以重新定义为:
Gain(D,a)=maxtTaGain(D,a,t)=maxtTaEnt(D)λ{,+}|Dλt||D|Ent(Dλt)

注意:与离散属性不同,若当前结点划分属性为连续属性,该属性还可以作为其后代结点的划分属性。
这里不同的区间相当于两种属性。

缺失值处理

在属性值较多的情况下,往往会出现大量样本属性的缺失值,为了不放弃使用有缺失值的样本。

两个问题

1:如何在属性值缺失的情况下进行划分属性选择
2:给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分。

处理方式

给定训练集 D 和属性a,令 D 表示在属性 a 上没有缺失值的样本子集,对于问题(1),我们仅仅可以使用D来判断属性 a 的优劣。

假设

假设a V 个可取值{a1,a2,,aV},令 Dv 表示 D 在属性 a 上取值为av的样本子集, Dk 表示 D 中属于第 k (k=1,2,,|Y|)的样本子集,显然有 D=k=1|Y|Dk ; D=v=1VDv ,
假定给每个样本 x 都赋予一个权重wx并定义

ρpkrv=xDwxxDwx=xDkwxxDwx(1k|Y|)=xDvwxxDwx(1vV)

对属性 a
ρ表示无缺失值样本所占的比例, pk 表示无缺失值样本中第 k 类所占的比例
rv则表示无缺失值样本中属性 a 上取值av的样本所占的比例

显然:
|Y|k=1pk=1
Vv=1rv=1
由此可以将信息增益公式修改为:

Gain(D,a)=ρ×Gain(D,a)=ρ×(Ent(D)v=1Vr˜vEnt(Dv))

其中:
Ent(D)=k=1|Y|pklog2pk

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值