1. Probability Theory
高斯分布
假设我们有一个包含
N
个数据点的数据集
称为关于 μ 和 σ 的似然函数,最大化这个似然函数,或者对数似然函数,就是最大似然估计。
从贝叶斯的角度来讲, μ 和 σ 同时也是不确定的,所以我们也可以假设 μ 和 σ 的先验概率,然后使用贝叶斯公式估计 μ 和 σ 在给定样本情况下的后验分布的概率密度函数。
2. Decision Theory
概率论一节中已经介绍了给定数据集,如何通过最大似然和最大后验的方法来估计数据分布的概率密度函数。本节所讲的是,在知道如何估计数据分布的情况下,选择什么样的方法来制定决策。
通常来说,对于分类问题,我们可以用三个方法来解决问题:
- 生成模型。首先估计出样本在不同类下的条件概率 p(x|k) . 同时估计出类的先验概率 p(k) . 使用贝叶斯公式,可得后验概率 P(k|x) . 得到后验概率后,我们可以决策出样本属于哪一类。通过这种方法,我们同时可以得到联合概率密度 p(x,k) 以及边缘分布 p(x) .这种模拟样本及类标签的概率分布的方法,就称为生成模型方法。
- 判别模型方法。 直接估计后验概率 P(k|x) , 然后决策出样本的类。
- 判别函数法。 直接使用一个判别函数,映射样本 x 到一个类别标签。
三种方法中,生成模型由于需要计算边缘分布
当我们只需要解决分类问题时,使用判别模型法是个性价比很高的方法。因为我们真正需要的是
P(k|x)
.
判别函数法比判别模型法更加简单直接,可以直接得到样本的标签,但是我们也失去了样本属于各个标签的后验概率,对于一些特定的需要后验概率的问题,我们仍需要前两种方法。
3. Information Theory
该节从信息论的角度引出KL散度这一概念。
随机变量的熵
首先定义一个离散随机变量
x
的熵:
当公式中的 ln 替换成 log2 时, H[x] 描述了将 x 以二进制编码的形式传输出去需要的最少字节数。使用拉格朗日乘数法,优化
可得当 x 服从均匀分布时熵为最大值。
当随机变量
使用同样的办法可以求出当 x 服从高斯分布时熵最大。
KL散度
KL散度存在其实际的物理意义:有一个未知的分布
使用詹森不等式可证 KL(p||q)≥0 等号当且仅当 p(x)=q(x) 时成立。