计算机视觉-模型学习和推理笔记第四章

最新推荐文章于 2022-10-10 16:43:49 发布

懵比小白

最新推荐文章于 2022-10-10 16:43:49 发布

阅读量246

点赞数

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/u012009684/article/details/112519811

版权

计算机视觉专栏收录该内容

2 篇文章 0 订阅

订阅专栏

《Computer Vision - Model Learning and Inference》笔记

第四章

模型拟合（Model Fitting），就是确定模型的参数集合 $\bm{\theta}$ 。

最大似然估计法（ML）

为了数学上的简便性，假设每个数据点的选取都是独立的。即 $P(x_i|x_j)=P(x_i),i\neq{j}$ 最大似然估计法的过程如下：

求出每个数据点 $x_i$ 由模型（参数带进去算）产生的概率 $P(x_i)$
求其积 $\prod_iP(x_i)$
此时，求参数为多少时，上述乘积取最大值。例如可以求导，对正态分布可以先取对数再求导。

上述过程求得的参数记作：

$\hat{\theta}=\underset{\theta}{\argmax}({\prod{P(x_i|\theta)}})$

最大后验概率(MAP)

有时候，我们可能通过经验提前知道参数取某个值的概率分布，将之记作 $P(\theta)$ 。

$\hat{\theta}=\argmax\left[P\left(\theta|x_{1...I}\right)\right]\newline =\argmax\left[\frac {P(x_{1...I}|\theta)P(\theta)} {P(x_{1...I})}\right]\newline =\argmax\left[\frac {\prod{P(x_i|\theta)}P(\theta)} {P(x_{1...I})}\right]$

由于分母和 $\theta$ 无关，不会影响最大值的位置，故可以直接去掉。

$\hat{\theta}=\underset{\theta}{\argmax}({\prod{P(x_i|\theta)}}P(\theta))$

这就是MAP求参数的公式。

ML可以看作是MAP的一个特殊情况。

贝叶斯方法

贝叶斯方法不再试图求一个最大的 $\hat{\theta}$ ，而是把 $\theta$ 的分布 $P(\theta|x_{1...i})$ 求出来。承认每个 $\theta$ 的取值对结果的影响。

由贝叶斯公式：
$P(\theta|x_{1...i})=\frac {\prod{P(x_i|\theta)}P(\theta)} {P(x_{1...I})}$

求出 $P(\theta|x_{1...i})$ 后，预测新的数据点 $x^*$ 概率即求一个“加权平均”，“权”由 $P(\theta|x_{1...i})$ 给出。根据概率密度函数的定义，所有“权”的和为1。

$P(x^*|x_{1...I})=\int{P(x^*|\theta)P(\theta|x_{1...I})d\theta}$

ML和MAP都可以看作是贝叶斯方法的特殊情况，如果我们把 $P(\theta|x_{1...i})$ 看成是一个聚集在 $\hat\theta$ 的delta函数（积分为1，除了 $\hat\theta$ 处函数值均为0的函数）的话。

示例1：一元正态分布

问题：给定由正态分布产生的数据 ${\{x_i\}}_1^I$ ，拟合出 $\mu,\sigma$ 。

最大似然估计法（ML）

$\hat{\theta}=\mu,\sigma^2=\underset{\mu,\sigma^2}{\argmax}({\underset{1<i<=I}{\prod}{P(x_i|\mu,\sigma^2)}})\\ =\underset{\mu,\sigma^2}{\argmax}({\underset{1<=i<=I}{\prod}{Norm_{x_i}[\mu,\sigma^2]}})\\ =\underset{\mu,\sigma^2}{\argmax}(log{\underset{1<i<=I}{\prod}{Norm_{x_i}[\mu,\sigma^2]}})\\ =\underset{\mu,\sigma^2}{\argmax}(-0.5I(log2\pi+log\sigma^2)-0.5\underset{1<=i<=I}{\sum}{\frac{(x_i-\mu)^2}{\sigma^2}})\\$

设
$L=-0.5I(log2\pi+log\sigma^2)-0.5\underset{1<=i<=I}{\sum}{\frac{(x_i-\mu)^2}{\sigma^2}}$
求偏导，令导为0，可求极大值点。
$\frac{\partial{L}}{\partial{\mu}}=\underset{1<=i<=I}{\sum}\frac{(x_i-\mu)}{\sigma^2}=0\\$
$\mu$ 极大值点：
$\hat{\mu}=\frac{{\sum}{x_i}}{I}$
同理，求 $\sigma^2$ 的极大值点：
$\hat{\sigma}=\underset{1<=i<=I}{\sum}\frac{(x_i-\hat{\mu})^2}{I}$
可见，ML求出来的其实就是已知数据的均值和方差。

最大后验概率(MAP)

$\hat{\theta}=\mu,\sigma^2=\underset{\mu,\sigma^2}{\argmax}({\prod{P(x_i|\mu,\sigma^2)}}P(\mu,\sigma^2))\\ =\underset{\mu,\sigma^2}{\argmax}(\underset{1<=i<=I}{\prod}Norm_{x_i}(\mu,\sigma^2)NormInvGam_{\mu,\sigma^2}(\alpha,\beta,\gamma,\sigma))\\ =\underset{\mu,\sigma^2}{\argmax}(\log(\underset{1<=i<=I}{\prod}Norm_{x_i}(\mu,\sigma^2)NormInvGam_{\mu,\sigma^2}(\alpha,\beta,\gamma,\sigma)))\\$

同样求极大值，步骤很麻烦，这里略去，结果是：

$\hat{\mu}=\frac{\sum{x_i}+\gamma\delta}{I+\gamma}, \hat\sigma^2=\frac{\sum(x_i-\hat{\mu})^2+2\beta+\gamma(\delta-\hat{\mu})^2}{I+3+2\alpha}$

贝叶斯方法

$P(\mu,\sigma^2|x_{1...I})=\frac{P(x_{1...I}|\mu,\sigma^2)P(\mu,\sigma^2)}{P(x_{1...I})}\\ =\frac{{\prod}Norm{x_i}[\mu,\sigma^2]NormInvGam_{\mu,\sigma^2}[\alpha,\beta,\gamma,\delta]}{P(x_{1...I})}\\ =\frac{{\kappa}NormInvGam_{\mu,\sigma^2}[\tilde\alpha,\tilde\beta,\tilde\gamma,\tilde\delta]}{P(x_{1...I})}\\$

第三行使用了共轭的性质，即后验概率和先验概率具有同样形式。

$\tilde\alpha=\alpha+I/2,\\ \tilde\gamma=\gamma+I,\\ \tilde\delta=\frac{\gamma\delta+\sum{x_i}}{\gamma+I},\\ \tilde\beta=\frac{\sum{x_i^2}}{2}+\beta+\frac{\gamma\delta^2}{2}-\frac{(\gamma\delta+\sum{x_i})^2}{2(\gamma+I)}$

由于概率密度函数必须积分为1，故 $\kappa$ 和分母必须能约掉，即：
$P(\mu,\sigma^2|x_{1...I})=NormInvGam_{\mu,\sigma^2}[\tilde\alpha,\tilde\beta,\tilde\gamma,\tilde\delta]$

懵比小白

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
计算机视觉-模型学习和推理笔记第四章

《Computer Vision - Model Learning and Inference》笔记第四章模型拟合（Model Fitting），就是确定模型的参数集合 θ\bm{\theta}θ。最大似然估计法（ML）为了数学上的简便性，假设每个数据点的选取都是独立的。即P(xi∣xj)=P(xi),i≠jP(x_i|x_j)=P(x_i),i\neq{j}P(xi∣xj)=P(xi),i=j 最大似然估计法的过程如下：求出每个数据点xix_ixi由模型（参数带进去算）产生的概率P
复制链接

扫一扫