条件概率与似然函数

dullenx

于 2021-12-14 10:24:54 发布

阅读量2.7k

点赞数 2

文章标签：概率论机器学习算法

本文链接：https://blog.csdn.net/dullenx/article/details/121909777

版权

概率密度与似然函数@TOC

概率密度函数(PDF: Probability Density Function)与似然函数（LF: Likelihood Function）

澄清概率密度函数（pdf）与似然函数（LF）的关系。参数估计中经常用到最大似然估计（Maximum Likelihood Estimation），其表达形式上与概率密度函数相同，但实际意义有所区别。
首先定义两个符号：

$f(x,y|\pmb{\theta})$ : 当参数为 $\pmb{\theta}$ 时，样本出现在 $(x, y)$ 的概率密度（pdf）
$f(x,y;\pmb{\theta})$ : 当观测到 $(x, y)$ 这个样本时，参数 $\pmb{\theta}$ 的概率密度函数（LF）

概率密度函数（ $f(x,y|\pmb{\theta})$ ）

以打靶为例。在射击之前，希望知道弹点的分布情况，即需要获得弹点 $(x, y)$ 的概率密度函数 $f (x, y)$ 。值得注意的是，这里的 $f (x, y)$ 并不是表示弹点落在 $(x, y)$ 的概率大小，而是弹点落在区域 $\Delta$ 的概率为 $P((x,y)\in \Delta) =\iint_{(x,y)\in \Delta} f(x,y) \text{d}x\text{d}y$ ，所以pdf值 $f (x, y)$ 可能大于1。
打靶示意图
如上图，落在8环内的概率 $P(||(x,y)||_2<R_8)=\iint_{||(x,y)||_2<R_8}f(x,y)\text{d}x\text{d}y$ ，其中 $x,y)||_2$ 表示矢量 $(x, y)$ 的二范数（即欧氏距离）， $R_8$ 表示8环的半径。

有时概率密度函数会由若干参数确定其形态，记为 $\pmb{\theta}$ ，以 $\pmb{\theta}$ 为参数的概率密度函数写为 $f(x,y|\pmb{\theta})$ 。这里的 $\pmb{\theta}$ 是一个给定参数向量。例如打靶问题中，假设弹点服从二维正态分布，参数 $\pmb{\theta} = (x_0,y_0,\sigma)$ ，其中 $x_0,y_0)$ 表示瞄准的中心的坐标， $\sigma$ 表示打靶的正态分布的标准差（假设 $x, y$ 独立同分布）。pdf的表达式就是：
$f(x,y|x_0,y_0,\sigma)=\frac{1}{\sqrt{2\pi \sigma^2}}\exp{\left\{-\frac{1}{2\sigma^2}[(x-x_0)^2+(y-y_0)^2]\right\}}$
pdf的自变量是 $(x, y)$ ， $\pmb{\theta}$ 是参数集合，针对给定的概率分布， $\pmb{\theta}$ 是常数。对pdf关于 $(x, y)$ 积分为1：
$\int_{x\in\mathcal{R}} \int_{y\in\mathcal{R}} f(x,y|x_0,y_0,\sigma)\text{d}x\text{d}y=1$

似然函数（ $f(x,y;\pmb{\theta})$ ）

Fisher在1922年提到过likelihood的理解：
两个二项分布的参数分别是 $p_1$ 和 $p_2$ ，即 $p(\xi=0)=p_1,p(\xi=0)=p_2$ ，我们不知道这两个参数的具体值。通过做实验，我们发现第一组实验出现0的频率是第二组实验出现0的频率的三倍，为了量化不同 $p$ 的这种属性，在不引起混淆的前提下，我们称 $p_1$ 的似然度（likelihood）是 $p_2$ 的似然度的三倍。值得注意的是，这里的似然度不是概率参数 $p=p_1$ 的概率，只是简单地表示在特定参数 $p$ 下，该参数导致观测样本出现的相对频率。
例如有两个靶子，靶心分别记为 $p_0=(x_0，y_0)$ 和 $p_1=(x_1,y_1)$ 。我们不知道射手瞄准的是哪个靶子，只是观测到了1个弹点的坐标是 $(x, y)$ 。此时 $p(x,y|x_0,y_0)$ 表示靶心是 $x_0,y_0)$ 条件下，出现弹点 $(x, y)$ 的概率密度，此时可以对平面上的弹点 $(x, y)$ 积分，满足
$\int_{x\in\mathcal{R}} \int_{y\in\mathcal{R}} f(x,y|x_0,y_0)\text{d}x\text{d}y=1$
$p(x,y;x_0,y_0)$ 表示观测到 $(x, y)$ 这一现象，射手瞄准的是 $x_0,y_0)$ 的似然度（likelihood）。这里是似然度而不是概率，表示参数 $\theta=(x_0,y_0)$ 这不是随机事件，而是客观事实，我们基于随机样本去推理客观参数，存在的不确定性称之为似然度，而基于客观参数推断某个样本出现的频率大小，称之为概率。似然函数可能不满足对参数 $\theta$ 积分为0：
例如下图：
条件概率与似然函数
如图，若 $\theta$ 即靶心坐标只有两个取值，分别是 $x_0=-1,y_0=0)$ 和 $x_0=1,y_0=0)$ ，虽然条件概率和似然函数的表达式相同：
$f(x,y|x_0,y_0)=\frac{1}{\sqrt{2\pi \sigma^2}}\exp{\left\{-\frac{1}{2\sigma^2}[(x-x_0)^2+(y-y_0)^2]\right\}} \\ f(x,y;x_0,y_0)=\frac{1}{\sqrt{2\pi \sigma^2}}\exp{\left\{-\frac{1}{2\sigma^2}[(x-x_0)^2+(y-y_0)^2]\right\}}$
但是条件概率的自变量是 $x, y$ ，对其积分后为1；而似然函数的自变量为 $x_0,y_0$ ，对其积分（两个取值求和）之后不一定为1。特别地，在这个例子中，如果 $\theta$ 的取值为 $(x_0,y_0)\in\mathcal{R}^2$ ，似然函数的积分也为1。

引用quora上的一个回答 What is the difference between probability and likelihood
我们可以再做一个类比，假设一个函数 $a^b$ ，这个函数包含两个变量。如果你令 $b = 2$ ，这样你就得到了一个关于 $a$ 的二次函数，即： $a^2$ 当你令 $a = 2$ 时，你将得到一个关于 $b$ 的指数函数，即 $2^b$ 可以看到这两个函数有着不同的名字，却源于同一个函数。而 $p (x ∣ θ)$ 也是一个有着两个变量的函数。如果，你将 $θ$ 设为常量，则你会得到一个概率函数（关于 $x$ 的函数）；如果，你将 $x$ 设为常量你将得到似然函数（关于 $θ$ 的函数）。

小结

1.在很多情况下，pdf和LF的表达式相同；
2.条件概率pdf是概率测度，满足非负性、积分为1条件，LF不是概率测度，不一定满足积分为1的条件；
3.似然函数是个相对值，可以比较，但不是绝对的概率意义。例如图2中，射手目标是右侧的似然程度要大于左侧的，但两个似然度的和并不一定为1。

[1]: RA Fisher, M.A., 1922. On the mathematical foundations of theoretical statistics. Phil. Trans. R. Soc. Lond. A, 222(594-604), pp.309-368.

dullenx

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
条件概率与似然函数

概率密度与似然函数@TOC概率密度函数(PDF: Probability Density Function)与似然函数（LF: Likelihood Function）澄清概率密度函数（pdf）与似然函数（LF）的关系。参数估计中经常用到最大似然估计（Maximum Likelihood Estimation），其表达形式上与概率密度函数相同，但实际意义有所区别。
复制链接

扫一扫