PRML Ch 1: Introduction 从概率论、决策论和信息论的角度来看机器学习

1. Probability Theory

高斯分布

假设我们有一个包含 N 个数据点的数据集x=(x1,...,xN)T,数据点独立的采样自一个均值为 μ 方差为 σ2 的高斯分布。因为数据点是独立同分布的,所以写出这些数据点出现的概率

p(x|μ,σ2)=ΠNn=1(xi|μ,σ2)

称为关于 μ σ 的似然函数,最大化这个似然函数,或者对数似然函数,就是最大似然估计。
从贝叶斯的角度来讲, μ σ 同时也是不确定的,所以我们也可以假设 μ σ 的先验概率,然后使用贝叶斯公式估计 μ σ 在给定样本情况下的后验分布的概率密度函数。

2. Decision Theory

概率论一节中已经介绍了给定数据集,如何通过最大似然和最大后验的方法来估计数据分布的概率密度函数。本节所讲的是,在知道如何估计数据分布的情况下,选择什么样的方法来制定决策。
通常来说,对于分类问题,我们可以用三个方法来解决问题:

  1. 生成模型。首先估计出样本在不同类下的条件概率 p(x|k) . 同时估计出类的先验概率 p(k) . 使用贝叶斯公式,可得后验概率 P(k|x) . 得到后验概率后,我们可以决策出样本属于哪一类。通过这种方法,我们同时可以得到联合概率密度 p(x,k) 以及边缘分布 p(x) .这种模拟样本及类标签的概率分布的方法,就称为生成模型方法。
  2. 判别模型方法。 直接估计后验概率 P(k|x) , 然后决策出样本的类。
  3. 判别函数法。 直接使用一个判别函数,映射样本 x 到一个类别标签。

三种方法中,生成模型由于需要计算边缘分布p(x),所以最消耗计算资源。生成模型的一个优点是,当新的样本点在当前的样本分布情况下出现概率很小时(称作outlier),模型的预测精度会很差,而生成模型可以检测出这种情况。
当我们只需要解决分类问题时,使用判别模型法是个性价比很高的方法。因为我们真正需要的是 P(k|x) .
判别函数法比判别模型法更加简单直接,可以直接得到样本的标签,但是我们也失去了样本属于各个标签的后验概率,对于一些特定的需要后验概率的问题,我们仍需要前两种方法。

3. Information Theory

该节从信息论的角度引出KL散度这一概念。

随机变量的熵

首先定义一个离散随机变量 x 的熵:

H[x]=xp(x)lnp(x).

当公式中的 ln 替换成 log2 时, H[x] 描述了将 x 以二进制编码的形式传输出去需要的最少字节数。使用拉格朗日乘数法,优化
max H[x] s.t.xp(x)=1

可得当 x 服从均匀分布时熵为最大值。
当随机变量x为连续值时,很自然的可以定义:

H[x]=p(x)lnp(x)dx.

使用同样的办法可以求出当 x 服从高斯分布时熵最大。

KL散度

KL散度存在其实际的物理意义:有一个未知的分布p(x), 假设我们用一个近似的分布 q(x) 来表示这个分布。如果我们用 q(x) 分布来对 x 编码并传输信息,那么相比于使用真实的p(x),我们所需的额外信息即为:

KL(p||q)=Hq[x]Hp[x]=p(x)lnq(x)p(x)dx

使用詹森不等式可证 KL(p||q)0 等号当且仅当 p(x)=q(x) 时成立。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值