决策树总结

最新推荐文章于 2022-04-11 16:54:58 发布

做技术不可耻

最新推荐文章于 2022-04-11 16:54:58 发布

阅读量93

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_40019838/article/details/100069770

版权

ID3决策树

使用信息增益确定最优划分属性。
$Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{\mid D^v\mid}{\mid D\mid}Ent(D^v)$
其中 $G a i n (D, a)$ 表示数据集 $D$ 上属性a的信息增益； $E n t (D)$ 表示数据集 $D$ 的信息熵； $V$ 表示属性 $a$ 的可取值数目； $D^v$ 表示属性 $a$ 上取值为 $a^v$ （ $a$ 的第 $v$ 个可取值）的样本。

缺点：偏向于可取值数目较多的属性。

C4.5决策树

使用增益率确定最优属性划分。
$Gain\_radio(D,a)=\frac{Gain(D,a)}{IV(a)}$
其中
$IV(a)=-\sum_{v=1}^{V}\frac{\mid D^v\mid}{\mid D\mid}log_2\frac{\mid D^v\mid}{\mid D\mid}$
为属性 $a$ 的固有值，信息熵，通常属性 $a$ 的可取值越多，固有值越大。

C4.5决策树偏向取值少的属性，为避免这一限制，实际的C4.5决策树算法先从划分属性中找到信息增益高于平均水平的属性，在从中选择增益率最高的。

连续属性：C4.5决策树使用二分法处理连续属性。
$\begin{aligned} Gain(D, a)&=\max\limits_{t\in T_a}\;Gain(D, a, t)\\ &=\max\limits_{t\in T_a}\;Ent(D)-\sum_{\lambda\in\{-,+\}}\frac{\mid D_t^\lambda\mid}{\mid D\mid}Ent(D^\lambda_t) \end{aligned}$
其中
$T_a=\{ \frac{a^i+a^{i+1}}{2}\mid1\leq i\leq n-1 \}$
为对属性 $a$ 的所有取值排序后得到的中位点集合， $D_t^+$ 和 $D_t^-$ 分别表示 $D$ 上属性 $a$ 取值大于 $t$ 的样本和不大于 $t$ 的样本。二分法尝试对每个中位点划分，从而找到最佳划分点。

缺失值处理：对属性 $a$ ， $\tilde{D}$ 表示在属性 $a$ 上没有缺失值的样本子集， $a$ 可取值 ${a^1,a^2,...,a^V\}$ ， $\tilde{D}^v$ 表示 $\tilde{D}$ 中在属性 $a$ 上取值为 $a^v$ 的样本子集， $\tilde{D}_k$ 表示 $\tilde{D}$ 中属于第 $k$ 类( $k=1,2,...,\mid\mathcal{Y}\mid$ )的样本子集。

首先对所有样本定义一个权重 $w_\boldsymbol{x}$ ，初始为1，定义
$\begin{aligned} \rho&=\frac{\sum_{\boldsymbol{x}\in\tilde{D}}w_\boldsymbol{x}}{\sum_{\boldsymbol{x}\in{D}}w_\boldsymbol{x}}\\ \tilde{p}_k&=\frac{\sum_{\boldsymbol{x}\in\tilde{D}_k}w_\boldsymbol{x}}{\sum_{\boldsymbol{x}\in{D}}w_\boldsymbol{x}}\\ \tilde{r}_v&=\frac{\sum_{\boldsymbol{x}\in\tilde{D}^v}w_\boldsymbol{x}}{\sum_{\boldsymbol{x}\in{D}}w_\boldsymbol{x}} \end{aligned}$
$\rho$ 表示无缺失值样本所占的比例， $\tilde{p}_k$ 表示无缺失值样本中第 $k$ 类所占的比例， $\tilde{r}_v$ 表示无缺失值样本中属性 $a$ 上取值为 $a^v$ 的样本所占的比例。那么信息增益可推广为
$\begin{aligned} Gain(D,a)&=\rho\times Gain(\tilde{D},a)\\ &=\rho\times(Ent(\tilde{D})-\sum_{i=1}^{V}\tilde{r}_vEnt(\tilde{D}^v)) \end{aligned}$
其中
$Ent(\tilde{D})=-\sum_{i=1}^{\mid \mathcal{Y}\mid}\tilde{p}_klog_2\tilde{p}_k$
在划分时，若样本 $\boldsymbol{x}$ 的划分属性已知，则直接划分到对应子节点，权值保持不变；否则同时将样本 $\boldsymbol{x}$ 划分到所有子节点，在与属性 $a^v$ 对应的子节点中权值调整为 $\tilde{r}_vw_\boldsymbol{x}$ ，也就是让一个样本以不同概率划分到不同节点。

在确定最优划分属性时只使用无缺失值样本，在划分时对缺失值划分入所有子节点。

CART决策树

使用基尼指数确定最优划分属性。
$\begin{aligned} Gini(D)&=\sum_{k=1}^{\mid \mathcal{Y}\mid}\sum_{k'\neq k}p_kp_k'\\ &=1-\sum_{k=1}^{\mid \mathcal{Y}\mid}p_k^2 \end{aligned}$
其中 $\mid\mathcal{Y}\mid$ 代表类别数， $p_k$ 代表取第 $k$ 个类别的概率。表示从数据集中随机抽取两个样本，其类别标记不一致的概率。基尼系数越小，表示数据集纯度越高。
$Gini\_index(D,a)=\sum_{v=1}^{V}\frac{\mid D^v\mid}{\mid D\mid}Gini(D^v)$
基尼指数是属性划分后的基尼系数加权和，越小越好。

多变量决策树

多变量决策树的非叶节点不再是对单个属性进行划分，而是对属性的线性组合进行划分。形如 $\sum_{i=1}^{d}w_ia_i=t$ ，其中 $w_i$ 是属性 $a_i$ 的权重，例如“ $-0.8\times$ 密度 $-0.44\times$ 含糖率 $\leq-0.313$ “， $w_i$ 和 $t$ 通过学习得到。能够实现斜的划分边界。

做技术不可耻

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树总结

ID3决策树使用信息增益确定最优划分属性。Gain(D,a)=Ent(D)−∑v=1V∣Dv∣∣D∣Ent(Dv)Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{\mid D^v\mid}{\mid D\mid}Ent(D^v)Gain(D,a)=Ent(D)−v=1∑V∣D∣∣Dv∣Ent(Dv)其中Gain(D,a)Gain(D, a)Gain(D,a)...
复制链接

扫一扫