连续值处理
对于连续属性的可取数目不再有限,因此,不能直接根据连续属性的可取值来对结点进行划分。
连续离散化之二分法
具体做法
对于给定的样本集
D
和连续属性
若
ai∈D−t
则
ai≤t
若
ai∈D+t
则
ai>t
其中
i∈[1,n]
处理方式
对相邻的属性取值
ai
与
ai+1
来说,在区间
[ai,ai+1)
中任意的取值所产生的划分结果相同,因此对于连续的属性
a
。所以可以取区间
如此便产生了
n−1
个划分点。元素候选划分点集合
此时可以像离散属性值一样来考察这些划分点,选取最优的划分点进行样本集合的划分。
此时信息增益可以重新定义为:
注意:与离散属性不同,若当前结点划分属性为连续属性,该属性还可以作为其后代结点的划分属性。
这里不同的区间相当于两种属性。
缺失值处理
在属性值较多的情况下,往往会出现大量样本属性的缺失值,为了不放弃使用有缺失值的样本。
两个问题
1:如何在属性值缺失的情况下进行划分属性选择
2:给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分。
处理方式
给定训练集
D
和属性
假设
假设
假定给每个样本
x
都赋予一个权重
对属性 a :
显然:
∑|Y|k=1pk∼=1
∑Vv=1rv∼=1
由此可以将信息增益公式修改为:
其中: