机器学习西瓜书和南瓜书第4章学习笔记

最新推荐文章于 2024-09-13 11:18:00 发布

可爱的希格玛

最新推荐文章于 2024-09-13 11:18:00 发布

阅读量119

点赞数 1

文章标签：机器学习学习笔记

本文链接：https://blog.csdn.net/2301_77354665/article/details/133046691

版权

一、决策树算法原理

从逻辑角度上，是一堆if-else语句的组合；从几何角度上，是根据某种准则划分特征空间。其最终目的为将样本越分越纯。

二、ID3决策树

将样本类别标记 $y$ 视作随机变量，各个类别在样本集合 $D$ 中的占比 $p_{k}(k=1,2,...,|Y|)$ 视作各个类别取值的概率，则样本集合 $D$ 的信息熵（底数取2）为

$Ent(D)=-\sum_{k=1}^{|Y|}p_{k}log_{2}p_{k}$

此信息熵可理解为集合内样本的纯度。

条件熵是 $Y$ 的信息熵关于概率分布 $X$ 的期望，表示已知 $X$ 后 $Y$ 的不确定性，公式为

$H(Y|X)=\sum_{x}^{}p(x)H(Y|X=x)$

从单个属性 $a$ 来看，假设其可能取值为 $\left \{ a^{1} ,a^{2},...,a^{V} \right \}$ 的集合， $D^{v}$ 表示 $a$ 取值为 $a^{v}\epsilon \left \{ a^{1} ,a^{2},...,a^{V} \right \}$ 的样本集合，则已知 $a$ 取值，样本集合 $D^{v}$ 的条件熵为

$\sum_{v=1}^{V}\frac{|D^{v}|}{|D|}Ent(D^{v})$

信息增益为已知属性 $a$ 取值后 $y$ 不确定性减少的量，即纯度的提升，公式为

$Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{|D^{v}|}{|D|}Ent(D^{v})$

ID3决策树为以信息增益为准则选择划分的决策树。划分标准 $a^{*}$ 的公式为

$a^{*}=argmax_{a\epsilon A}Gain(D,a)$

三、C4.5决策树

信息增益可能对取值数目较多的属性有所偏好，为减轻偏好，C4.5决策树用增益率代替信息增益。增益率为

$Gain-ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$

其中

$IV(a)=-\sum_{v=1}^{V}\frac{|D^{v}|}{|D|}log_{2}\frac{|D^{v}|}{|D|}$

称为属性 $a$ 的固有值。通常 $V$ 越大， $IV(a)$ 越大。但增益率可能对取值数目较少的属性有所偏好，因此C4.5决策树先选信息增益高的，再从中选增益率高的。

四、CART决策树

基尼值为从样本集合 $D$ 中随机抽两个样本，其类别标记不一样的概率。基尼值越小，纯度越高。基尼值公式为

$Gini(D)=\sum_{k=1}^{|Y|}\sum_{k^{'}\neq k}^{}p_{k}p_{k^{'}}=\sum_{k=1}^{|Y|}p_{k}(1-p_{k})=1- \sum_{k=1}^{|Y|}p_{k} ^{2}$

属性 $a$ 的基尼指数为

$Gini-index(D,a)\sum_{v=1}^{V}\frac{|D^{v}|}{|D|} Gini(D^{v})$

CART决策树选择基尼指数最小的属性为最优划分属性，即

$a^{*}=argmax_{a\epsilon A}Gini-index(D,a)$

首先，对每个属性 $a$ 的可能取值 $v$ 将数据集 $D$ 划分为 $a=v$ 和 $a\neq v$ 两部分计算基尼指数。然后选择基尼指数最小的属性为最优划分属性。重复以上过程直至满足条件。

五、剪枝处理

剪枝是用于解决决策树过拟合的方法。常用的剪枝方法有预剪枝和后剪枝。预剪枝是将数据集以某属性划分前后计算验证集精度判断是否划分，若划分后精度下降则不划分。后剪枝是先生成决策树，计算某属性替换为叶子节点前后验证集精度，若替换后精度上升则替换。

六、连续与缺失值、多变量决策树

1.连续值处理

对连续值的处理采用二分法。给定样本集 $D$ 和连续属性 $a$ ，假设 $a$ 在 $D$ 中取值从大到小排序为 $\left \{ a^{1},a^{2},...,a^{n} \right \}$ ，基于划分点 $t$ 将 $D$ 划分为 $D_{t}^{-}$ （包含 $a$ 取值不大于 $t$ 的样本）和 $D_{t}^{+}$ （包含 $a$ 取值大于 $t$ 的样本）。对于相邻属性 $a^{i}$ 和 $a^{i+1}$ ， $t$ 取两者之间的任何数对结果无影响，因此取 $\frac{a^{i}+a^{i+1}}{2}$ 作划分点候选值。

2.缺失值划分

给定训练集 $D$ 和属性 $a$ ，令 $\widetilde{D}$ 为 $D$ 中无缺失值的样本子集。若 $a\epsilon \left \{ a^{1},a^{2},...,a^{V} \right \}$ ，则用 $\widetilde{D}^{v}$ 表示 $\widetilde{D}$ 中 $a$ 取 $a^{v}$ 的样本子集， $\widetilde{D}_{k}$ 表示 $\widetilde{D}$ 中第 $k$ 类样本子集。对每个样本 $x$ 赋予权重 $w_{x}$ ，定义