信息论基础
写在前面
至于为什么在更新《统计学习方法》的时候要插一个信息论相关的内容。主要是考虑到从下一章决策树开始,熵成了一个无法避免的讨论对象。所以就想单独拿出一章来讲一讲熵相关的内容。
当然,这篇写的不及许多的生动,甚至有陈列公示之嫌,但还是希望看到的人有所收获。
熵
熵其实是一个随机变量不确定性的度量。或者也可以理解成是平均意义上对随机变量的编码长度。
具体计算如下:
H ( X ) = − ∑ x ∈ χ p ( x ) log p ( x ) H(X)=-\sum_{x \in \chi} p(x) \log p(x) H(X)=−x∈χ∑p(x)logp(x)
互信息
首先我们先看定义:
I ( X ; Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( x , y ) p ( x ) p ( y ) I(X ; Y)=\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} I(