机器学习笔记（XIII）决策树(III)连续与缺失值

最新推荐文章于 2023-02-16 23:14:18 发布

王先生的副业

最新推荐文章于 2023-02-16 23:14:18 发布

阅读量1.3k

点赞数

分类专栏：机器学习机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/uncle_gy/article/details/78848479

版权

机器学习同时被 2 个专栏收录

46 篇文章 2 订阅

订阅专栏

机器学习

39 篇文章 5 订阅

订阅专栏

连续值处理

对于连续属性的可取数目不再有限，因此，不能直接根据连续属性的可取值来对结点进行划分。

连续离散化之二分法

具体做法

对于给定的样本集 $D$ 和连续属性 $a$ ，假定 $a$ 在 $D$ 上出现了 $n$ 个不同的取值，将这些值从小到大进行排序，记为 $\{a^1,a^2,\dots,a^n\}$ 。基于划分点 $t$ 可将 $D$ 分为子集 $D_{t}^{-}$ 和 $D_{t}^{+}$ ，
若 $a_i\in D_{t}^{-}$ 则 $a_i\leq t$
若 $a_i\in D_{t}^{+}$ 则 $a_i\gt t$
其中 $i\in [1,n]$

处理方式

对相邻的属性取值 $a^i$ 与 $a^{i+1}$ 来说，在区间 $[a^i,a^{i+1})$ 中任意的取值所产生的划分结果相同，因此对于连续的属性 $a$ 。所以可以取区间 $[a^i,a^{i+1})$ 的中点来作为划分点即 $\dfrac{a^i+a^{i+1}}{2}$
如此便产生了 $n-1$ 个划分点。元素候选划分点集合

T a = {a i + a i + 1 2 ∣ 1 \leq i \leq n - 1}

$T_a=\left\{\dfrac{a^i+a^{i+1}}{2}\mid1\leq{i}\leq{n-1}\right\}$
此时可以像离散属性值一样来考察这些划分点，选取最优的划分点进行样本集合的划分。
此时信息增益可以重新定义为：

G a i n (D, a) = max t \in T a G a i n (D, a, t) = max t \in T a E n t (D) - \sum λ \in {-, +} | D λ t | | D | E n t (D λ t)

$\begin{aligned} \mathop{Gain}(D,a)&=\max\limits_{t\in{T_a}}\mathop{Gain}(D,a,t)\\ &=\max\limits_{t\in{T_a}}\mathop{Ent}(D)-\sum\limits_{\lambda\in\{-,+\}}\dfrac{|D_t^\lambda|}{|D|}\mathop{Ent}(D_t^\lambda) \end{aligned}$
注意：与离散属性不同，若当前结点划分属性为连续属性，该属性还可以作为其后代结点的划分属性。
这里不同的区间相当于两种属性。

缺失值处理

在属性值较多的情况下，往往会出现大量样本属性的缺失值，为了不放弃使用有缺失值的样本。

两个问题

1：如何在属性值缺失的情况下进行划分属性选择
2：给定划分属性，若样本在该属性上的值缺失，如何对样本进行划分。

处理方式

给定训练集 $D$ 和属性 $a$ ，令 $\mathop{D}\limits^{\sim}$ 表示在属性 $a$ 上没有缺失值的样本子集，对于问题（1）,我们仅仅可以使用 $\mathop{D}\limits^{\sim}$ 来判断属性 $a$ 的优劣。

假设

假设 $a$ 有 $V$ 个可取值 $\left\{a^1,a^2,\dots,a^V\right\}$ ,令 $\mathop{D^v}\limits^{\sim}$ 表示 $\mathop{D}\limits^{\sim}$ 在属性 $a$ 上取值为 $a^v$ 的样本子集， $\mathop{D_k}\limits^{\sim}$ 表示 $\mathop{D}\limits^{\sim}$ 中属于第 $k$ 类 $(k=1,2,\dots,|\mathcal{Y}|)$ 的样本子集，显然有 $\mathop{D}\limits^{\sim}=\mathop{\cup}_{k=1}^{|\mathcal{Y}|}\mathop{D_k}\limits^{\sim}$ ; $\mathop{D}\limits^{\sim}=\mathop{\cup}_{v=1}^{V}\mathop{D_v}\limits^{\sim}$ ,
假定给每个样本 $x$ 都赋予一个权重 $w_x$ 并定义

ρ p \sim k r \sim v = \sum x \in D \sim w x \sum x \in D w x = \sum x \in D k \sim w x \sum x \in D \sim w x (1 \leq k \leq | Y |) = \sum x \in D v \sim w x \sum x \in D \sim w x (1 \leq v \leq V)

$\begin{aligned} \rho&=\dfrac{\sum_{x\in{\mathop{D}\limits^{\sim}}}w_x}{\sum_{x\in D}w_x}\\ {\mathop{p}\limits^{\sim}}_k&=\dfrac{\sum_{x\in{\mathop{D_k}\limits^{\sim}}}w_x}{\sum_{x\in{\mathop{D}\limits^{\sim}}}w_x} (1\leq k\leq|\mathcal{Y}|)\\ {\mathop{r}\limits^{\sim}}_v&=\dfrac{\sum_{x\in{\mathop{D^v}\limits^{\sim}}}w_x}{\sum_{x\in{\mathop{D}\limits^{\sim}}}w_x} (1\leq v\leq V)\\ \end{aligned}$
对属性

a $a$ ：

ρ $\rho$ 表示无缺失值样本所占的比例，

pk∼ $\mathop{p_k}\limits^{\sim}$ 表示无缺失值样本中第

k $k$ 类所占的比例

rv∼ $\mathop{r_v}\limits^{\sim}$ 则表示无缺失值样本中属性

a $a$ 上取值

av $a^v$ 的样本所占的比例

显然：
$\sum_{k=1}^{|\mathcal{Y}|}\mathop{p_k}\limits^{\sim}=1$
$\sum_{v=1}^{V}\mathop{r_v}\limits^{\sim}=1$
由此可以将信息增益公式修改为：

G a i n (D, a) = ρ \times G a i n (D \sim, a) = ρ \times (E n t (D \sim) - \sum v = 1 V r ˜ v E n t (D \sim v))

$\begin{aligned} \mathop{Gain}(D,a)&=\rho\times\mathop{Gain}(\mathop{D}\limits^{\sim},a)\\ &=\rho\times\left(\mathop{Ent}(\mathop{D}\limits^{\sim})-\sum\limits_{v=1}^{V}\widetilde{r}_v\mathop{Ent}\left({\mathop{D}\limits^{\sim}}^v\right)\right) \end{aligned}$
其中：

E n t (D \sim) = - \sum k = 1 | Y | p \sim k log 2 p \sim k

$Ent(\mathop{D}\limits^{\sim})=-\sum\limits_{k=1}^{\mathcal{|Y|}}{\mathop{p}\limits^{\sim}}_k\log_2{\mathop{p}\limits^{\sim}}_k$

王先生的副业

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
机器学习笔记（XIII）决策树(III)连续与缺失值

连续值处理对于连续属性的可取数目不再有限，因此，不能直接根据连续属性的可取值来对结点进行划分。连续离散化之二分法具体做法对于给定的样本集DD和连续属性aa，假定aa在DD上出现了nn个不同的取值，将这些值从小到大进行排序，记为{a1,a2,…,an}\{a^1,a^2,\dots,a^n\}。基于划分点tt可将DD分为子集D−tD_{t}^{-}和D+tD_{t}^{+}，若ai∈D−ta_i\
复制链接

扫一扫