PRML Ch 1: Introduction 从概率论、决策论和信息论的角度来看机器学习

最新推荐文章于 2024-07-21 14:23:07 发布

chenjunxuan

最新推荐文章于 2024-07-21 14:23:07 发布

阅读量1.3k

点赞数

分类专栏： PRML读书笔记文章标签：数据机器学习

本文链接：https://blog.csdn.net/sinat_34781683/article/details/51241416

版权

PRML读书笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1. Probability Theory

高斯分布

假设我们有一个包含 $N$ 个数据点的数据集 $\textbf{x}=(x_{1}, ..., x_{N})^{T}$ ，数据点独立的采样自一个均值为 $\mu$ 方差为 $\sigma^{2}$ 的高斯分布。因为数据点是独立同分布的，所以写出这些数据点出现的概率

p (x | μ, σ 2) = Π N n = 1  (x i | μ, σ 2)

$p(\textbf{x}|\mu, \sigma^{2}) = \Pi_{n=1}^{N}\mathcal{N}(x_{i}|\mu, \sigma^{2})$
称为关于

μ $\mu$ 和

σ $\sigma$ 的似然函数,最大化这个似然函数，或者对数似然函数，就是最大似然估计。
从贝叶斯的角度来讲，

μ $\mu$ 和

σ $\sigma$ 同时也是不确定的，所以我们也可以假设

μ $\mu$ 和

σ $\sigma$ 的先验概率，然后使用贝叶斯公式估计

μ $\mu$ 和

σ $\sigma$ 在给定样本情况下的后验分布的概率密度函数。

2. Decision Theory

概率论一节中已经介绍了给定数据集，如何通过最大似然和最大后验的方法来估计数据分布的概率密度函数。本节所讲的是，在知道如何估计数据分布的情况下，选择什么样的方法来制定决策。
通常来说，对于分类问题，我们可以用三个方法来解决问题：

生成模型。首先估计出样本在不同类下的条件概率 $p(x|\mathcal{C_{k}})$ . 同时估计出类的先验概率 $p(\mathcal{C_{k}})$ . 使用贝叶斯公式，可得后验概率 $P(\mathcal{C_{k}} | x)$ . 得到后验概率后，我们可以决策出样本属于哪一类。通过这种方法，我们同时可以得到联合概率密度 $p(x, \mathcal{C_{k}})$ 以及边缘分布 $p(x)$ .这种模拟样本及类标签的概率分布的方法，就称为生成模型方法。
判别模型方法。直接估计后验概率 $P(\mathcal{C_{k}} | x)$ ，然后决策出样本的类。
判别函数法。直接使用一个判别函数，映射样本 $x$ 到一个类别标签。

三种方法中，生成模型由于需要计算边缘分布 $p(x)$ ,所以最消耗计算资源。生成模型的一个优点是，当新的样本点在当前的样本分布情况下出现概率很小时（称作outlier），模型的预测精度会很差，而生成模型可以检测出这种情况。
当我们只需要解决分类问题时，使用判别模型法是个性价比很高的方法。因为我们真正需要的是 $P(\mathcal{C_{k}} | x)$ .
判别函数法比判别模型法更加简单直接，可以直接得到样本的标签，但是我们也失去了样本属于各个标签的后验概率，对于一些特定的需要后验概率的问题，我们仍需要前两种方法。

3. Information Theory

该节从信息论的角度引出KL散度这一概念。

随机变量的熵

首先定义一个离散随机变量 $x$ 的熵：

H [x] = - \sum x p (x) ln p (x) .

$H[x] = -\sum_{x} p(x)\ln p(x).$
当公式中的

ln $\ln$ 替换成

log2 $\log_{2}$ 时，

H[x] $H[x]$ 描述了将

x $x$ 以二进制编码的形式传输出去需要的最少字节数。使用拉格朗日乘数法，优化

max H [x] s.t. \sum x p (x) = 1

$\text{max } H[x] \text{ s.t.} \sum_{x}p(x)=1$
可得当

x $x$ 服从均匀分布时熵为最大值。
当随机变量

x $x$ 为连续值时，很自然的可以定义:

H [x] = - \int p (x) ln p (x) d x .

$H[x] = -\int p(x)\ln p(x)dx.$
使用同样的办法可以求出当

x $x$ 服从高斯分布时熵最大。

KL散度

KL散度存在其实际的物理意义：有一个未知的分布 $p(x)$ , 假设我们用一个近似的分布 $q(x)$ 来表示这个分布。如果我们用 $q(x)$ 分布来对 $x$ 编码并传输信息，那么相比于使用真实的 $p(x)$ ,我们所需的额外信息即为：

K L (p | | q) = H q [x] - H p [x] = - \int p (x) ln q ( x ) p ( x ) d x

$KL(p||q) = H_{q}[x] - H_{p}[x] = -\int p(x) \ln \frac{q(x)}{p(x)}dx$
使用詹森不等式可证

KL(p||q)≥0 $KL(p||q) \geq 0$ 等号当且仅当

p(x)=q(x) $p(x)=q(x)$ 时成立。

chenjunxuan

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
PRML Ch 1: Introduction 从概率论、决策论和信息论的角度来看机器学习

Chapter 1: Introduction 从概率论、决策论和信息论的角度来看机器学习1. Probability Theory
复制链接

扫一扫