机器学习03

@小冯@

已于 2023-12-20 22:48:45 修改

阅读量882

点赞数 21

分类专栏：吃瓜之路文章标签：机器学习

于 2023-12-20 22:42:36 首次发布

本文链接：https://blog.csdn.net/qq_52052302/article/details/135119326

版权

5 篇文章 0 订阅

订阅专栏

西瓜书对应章节：4.1、4.2

自信息的期望;度量随机变量X的不确定性，信息熵越大越不确定
计算信息熵时约定：若 $p (x) = 0$ ,则 $p(x)\log_bp(x)=0$
公式：
$H(X)=E[I(X)]=-\sum_xp(x)\log_bp(x)$
将各样本类别标记为y视作随机变量，各个类别在样本集合D中的占比 $p (k) (k = 1, 2, ..., ∣ y ∣)$ 视作各个类别取值的概率，则样本集合D（随机变量y）的信息熵（底数b取2）为
$Ent(D)=-\sum_{k=1}^{|y|}p_k\log_2p_k$
此时的信息熵所代表的“不确定性”可以转换理解为集合内样本的“纯度”
条件熵（Y的信息熵关于概率分布X的期望）：在已知X后Y的不确定性 $H(Y|X)=\sum_xp(x)H(Y|X=x)$ 从单个属性（特征）a来看，假设其可能的取值为 ${a^1,a^2,...,a^v}$ , $D^v$ 表示属性a取值为 $a^v\in(a^1,a^2,...,a^v)$ 的样本集合 $\frac{|D^v|}{D}Ent(D^v)$
信息增益：在已知属性（特征）a的取值后y的不确定性减少的两，也即纯度的提升
$Gain(D,a)=Ent(D)-\sum_{v=1}^v\frac{|D^v|}{D}Ent(D^v)$
ID3决策树：以信息增益为准则来选择划分属性的决策树
$a_*=\arg_{a\in A} max Gain(D,a)$

信息增益准则可能对于取值数目较多的属性有所偏好（例如编号这个较为极端的例子），为减少这种偏好可能带来的不利影响，C4.5决策树使用“增益率”代替“信息增益”
$Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$
其中 $IV(a)=-\sum_{v=1}^v\frac{|D^v|}{D} \log_2 \frac{|D^v|}{D}$ 称为属性a的固有值，a的取值个数V越大，通常其固有值IV(a)也越大
并没有完全使用增益率来代替信息增益，而是采用一种启发式的方法，先选出信息增益高于平均水平的属性，然后再从中选择增益率最高的

基尼值：从样本集合D中随机抽取两个样本，其类别标记不一致的概率。因此，基尼值越小，碰到异类的概率越小，纯度越高
$Gini(D)=\sum_{k=1}^{|y|} \sum_{k'\neq k}p(k)0(k') =\sum_{k=1}^{|y|}p(k)(1-p(k)) =1-\sum_{k=1}^{|y|}p(k)^2$
基尼指数（类比信息熵和条件熵）
$Gini\_index(D,a)=\sum_{v=1}^V \frac{D^v}{|D|}Gini(D^v)$
CART决策树：选择基尼指数最小的属性作为最优划分属性
$a_*=\arg_{a\in A} min Gini_index(D,a)$
实际构造算法时：对属性a的每一个可能取值v，将数据集D划分为a=v和 $a\neq v$ 两部分来计算，即
$Gini\_index(D,a)=\frac{D^{a=v}}{|D|}Gini(D^{a=v})+\frac{D^{a\neq v}}{|D|}Gini(D^{a\neq v})$
然后选取基尼值属最小的属性及其对应取值作为最优划分属性和最优划分点