统计学习方法第五章

最新推荐文章于 2022-04-03 11:32:41 发布

a97155787

最新推荐文章于 2022-04-03 11:32:41 发布

阅读量66

点赞数

分类专栏：统计学习方法

本文链接：https://blog.csdn.net/a97155787/article/details/119083414

版权

统计学习方法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

决策树

决策树损失函数通常是正则化的极大似然函数

信息增益的算法

输入：训练数据集 $D$ 和特征 $A$ ;
输出: 特征 $A$ 对训练数据集 $D$ 的信息增益 $g (D, A)$ 。
设有 $K$ 个类 $C_{k}$ , $\left|C_{k}\right|$ 为属于类 $C_{k}$ 的样本个数
根据特征 $A$ 的取值将 $D$ 划分为 $n$ 个子集 $D_{1}, D_{2}, \cdots$
$D_{i k}=D_{i} \cap C_{k}$

(1) 计算数据集 $D$ 的经验熵 $H (D)$

即将数据集 $D$ 划分为 $K$ 个类之后的不确定性
$H(D)=-\sum_{k=1}^{K} \frac{\left|C_{k}\right|}{|D|} \log _{2} \frac{\left|C_{k}\right|}{|D|}$
(2) 计算特征 $A$ 对数据集 $D$ 的经验条件熵 $\mid A)$

即 $A$ 将数据集 $D$ 划分为 $n$ 个子集之后的不确定性
$\mid A)=\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D|} H\left(D_{i}\right)=-\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D|} \sum_{k=1}^{K} \frac{\left|D_{i k}\right|}{\left|D_{i}\right|} \log _{2} \frac{\left|D_{i k}\right|}{\left|D_{i}\right|}$
（3）计算信息增益（不确定性减少的程度）
$\mid A)$
不同的$ A$有不同的信息增益，挑个最大的，信息增益大的代表分类能力强

信息增益比

定义 $5.3$ (信息增益比）特征 $A$ 对训练数据集 $D$ 的信息增益比 $g_{R}(D, A)$ 定义为其信息增益 $g (D, A)$ 与训练数据集 $D$ 关于特征 $A$ 的值的嫡 $H_{A}(D)$ 之比, 即
$信息增益比=g_{R}(D, A)=\frac{g(D, A)}{H_{A}(D)}=\frac{H(D)-H(D \mid A)}{H_{A}(D)}=\frac{H(D)-H(D \mid A)}{-\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D|} \log _{2} \frac{\left|D_{i}\right|}{|D|}}\\ =\frac{原始分类不确定性-分类经过A划分之后的不确定性}{A划分之后的不确定性}$
其中, $H_{A}(D)=-\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D|} \log _{2} \frac{\left|D_{i}\right|}{|D|}, n$ 是特征 $A$ 取值的个数。

信息增益比本质是在信息增益的基础之上乘上一个惩罚参数。特征个数较多时，惩罚参数较小；特征个数较少时，惩罚参数较大。

惩罚参数：数据集D以特征A作为随机变量的熵的倒数，即：将特征A取值相同的样本划分到同一个子集中（之前所说数据集的熵是依据类别进行划分的）

惩罚参数 $=\frac{1}{H_{A}(D)}=\frac{1}{-\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D|} \operatorname{lng}_{2} \frac{\left|D_{i}\right|}{|D|}}$

缺点：信息增益比偏向取值较少的特征

原因： 当特征取值较少时 $H A (D)$ 的值较小，因此其倒数较大，因而信息增益比较大。因而偏向取值较少的特征。
使用信息增益比：基于以上缺点，并不是直接选择信息增益率最大的特征，而是现在候选特征中找出信息增益高于平均水平的特征，然后在这些特征中再选择信息增益率最高的特征。

ID3算法

在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树。

具体方法是:从根结点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点;再对子结点递归地调用以上方法，构建决策树;直到所有特征的信息增益均很小或没有特征可以选择为止。最后得到一棵决策树。ID3相当于用极大似然法进行概率模型的选择。

C4.5 的生成算法

将ID3算法中的信息增益换为信息增益比

剪枝

决策树的剪枝往往通过极小化决策树整体的损失函数（loss function）或代价函数 (cost function) 来实现。设树 $T$ 的叶结点个数为 $∣ T ∣, t$ 是树 $T$ 的叶结点, 该叶结点有 $N_{t}$ 个样本点, 其中 $k$ 类的样本点有 $N_{t k}$ 个, $\cdots, K, H_{t}(T)$ 为叶结点 $t$ 上的经验嫡, $\alpha \geqslant 0$ 为参数, 则决策树学习的损失函数可以定义为
$C_{\alpha}(T)=\sum_{t=1}^{|T|} N_{t} H_{t}(T)+\alpha|T|$
其中经验熵为
$H_{t}(T)=-\sum_{k} \frac{N_{t k}}{N_{t}} \log \frac{N_{t k}}{N_{t}}$
在损失函数中, 将式 $C_{\alpha}(T)=\sum_{t=1}^{|T|} N_{t} H_{t}(T)+\alpha|T|$ 右端的第 1 项记作
$C(T)=\sum_{t=1}^{|T|} N_{t} H_{t}(T)=-\sum_{t=1}^{|T|} \sum_{k=1}^{K} N_{t k} \log \frac{N_{t k}}{N_{t}}$
这时有
$C_{\alpha}(T)=C(T)+\alpha|T|$
$C (T)$ 表示模型与训练数据的拟合程度,
$∣ T ∣$ 表示模型复杂度, 参数 $\alpha \geqslant 0$ 控制两者之间的影响。