学习笔记9.25

最新推荐文章于 2024-08-05 20:31:58 发布

syqxiaoer

最新推荐文章于 2024-08-05 20:31:58 发布

阅读量505

点赞数

分类专栏：算法中餐厅学习笔记文章标签：机器学习

本文链接：https://blog.csdn.net/syqxiaoer/article/details/78086877

版权

算法中餐厅同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

学习笔记

1 篇文章 0 订阅

订阅专栏

信息增益

参考周志华老师的机器学习这本书，学习了信息增益的内容：

“信息熵”是度量样本集合纯度最常用的一种指标。假设当前样本集合中第 $k$ 类样本所占的比例为 $p_{k}(k=1,2,...,|y|)$ ,则 $D$ 的信息熵定义为

E n t (D) = - \sum k = 1 | y | p k l o g 2 p k

$Ent\left ( D \right )=-\sum_{k=1}^{\left | y \right |}p_{k}log_{2}p_{k}$

Ent(D) $Ent(D)$ 的值越小，则

D $D$ 的纯度越高。
假定离散属性

a $a$ 有

V $V$ 个可能的取值

{a1,a2,...,aV} $\left \{ a^{1},a^{2},...,a_{V} \right \}$ ,若使用

a $a$ 来对样本集

D $D$ 进行划分，则会产生

V $V$ 个分支节点，其中第

v $v$ 个分支节点包含了

D $D$ 中所有在属性

a $a$ 上取值为

av $a^{v}$ 的样本，记为

Dv $D^v$ . 计算出

Dv $D^v$ 的信息熵，考虑到不同的分支节点包含的样本数不同，给分支节点赋予权重

|Da||D| $\frac{\left | D^{a} \right |}{\left | D \right |}$ 即样本数越多的分支节点的影响越大，于是课计算出用属性

a $a$ 对样本集

D $D$ 进行划分所获得的“信息增益”

G a i n (D, a) = E n t (D) - \sum v = 1 V | D v | | D | E n t (D v)

$Gain\left ( D,a \right )=Ent\left ( D \right )-\sum_{v=1}^{V}\frac{\left | D^{v} \right |}{\left | D \right |}Ent\left ( D^{v} \right )$
一般而言，信息增益越大，则意味着使用属性

a $a$ 来进行划分所获得的纯度提升。

互信息

根据维基百科的定义：一般地，两个离散随机变量 $X$ 和 $Y$ 的互信息可以定义为：

I (X; Y) = \sum y \in Y \sum x \in X p (x, y) l o g (p ( x , y ) p ( x ) p { y })

$I\left ( X;Y \right )=\sum_{y\in Y}\sum_{x\in X}p\left ( x,y \right )log\left ( \frac{p\left ( x,y \right )}{p\left ( x \right )p\left \{ y \right \}} \right )$

p(x,y) $p\left ( x,y \right )$ 是

X $X$ ,

Y $Y$ 的联合概率分布函数，

p(x) $p\left ( x \right )$ ，

p(y) $p\left ( y \right )$ 分别是

X $X$ ,

Y $Y$ 的边缘概率密度。
在连续随机变量的情形下，求二重积分

I (X; Y) = \int Y \int X p (x, y) l o g (p ( x , ) p ( x ) p ( y )) d x d y

$I\left ( X;Y \right )=\int_{Y}\int_{X}p\left ( x,y \right )log\left ( \frac{p\left ( x, \right )}{p\left ( x \right )p\left ( y \right )} \right )dxdy$
直观上，互信息度量 X 和 Y 共享的信息：它度量知道这两个变量其中一个，对另一个不确定度减少的程度。例如，如果 X 和 Y 相互独立，则知道 X 不对 Y 提供任何信息，反之亦然，所以它们的互信息为零。在另一个极端，如果 X 是 Y 的一个确定性函数，且 Y 也是 X 的一个确定性函数，那么传递的所有信息被 X 和 Y 共享：知道 X 决定 Y 的值，反之亦然。因此，在此情形互信息与 Y（或 X）单独包含的不确定度相同，称作 Y（或 X）的熵。而且，这个互信息与 X 的熵和 Y 的熵相同。（这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。）

syqxiaoer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习笔记9.25

信息增益参考周志华老师的机器学习这本书，学习了信息增益的内容：“信息熵”是度量样本集合纯度最常用的一种指标。假设当前样本集合中第kk类样本所占的比例为pk(k=1,2,...,|y|)p_{k}(k=1,2,...,|y|),则DD的信息熵定义为 Ent(D)=−∑k=1|y|pklog2pkEnt\left ( D \right )=-\sum_{k=1}^{\left | y \
复制链接

扫一扫