最大似然和贝叶斯参数估计

果壳小旋子

于 2022-12-31 15:14:11 发布

阅读量482

点赞数

文章标签：概率论 python

本文链接：https://blog.csdn.net/m0_47867419/article/details/128504798

版权

最大似然估计贝叶斯估计参数估计高斯分布后验概率

关键词由CSDN通过智能技术生成

统计生成模型的参数估计
– Maximum Likelihood(ML) 假设参数是某个确定的值，通过使似然度最大求出参数
– Bayesian estimation 假设参数是随机变量，估计参数分布的参数
– 最大似然求出具体的参数，贝叶斯求的是参数的分布

最大似然估计

假设概率密度函数 $p\left(x \mid \omega_i, \theta_i\right), \quad \theta_i$ to be estimated，估计每一类的概率密度函数， $\theta_i$ 就是每一类概率密度函数的待估计参数
样本数据 $D_1, \ldots, D_c$ ，假设每一类 $D_i$ 中的样本满足独立同分布i.i.d
总体流程就是从每一类中估计出一个概率密度函数，组成分类器

如何估计每一类的参数

似然函数（在某种参数下得到现有样本的概率，并应用独立同分布条件）
$p(\mathcal{D} \mid \boldsymbol{\theta})=\prod_{k=1}^n p\left(\mathbf{x}_k \mid \boldsymbol{\theta}\right)$
求使得似然函数最大化的参数（可能有解析解；如果没有可以考虑用梯度下降或其他优化方法）
$\max _{\boldsymbol{\theta}} p(D \mid \boldsymbol{\theta}) \leftrightarrow \nabla_{\boldsymbol{\theta}} p(D \mid \boldsymbol{\theta})=0$
$\nabla_{\boldsymbol{\theta}} \equiv\left[\begin{array}{c} \frac{\partial}{\partial \theta_1} \\ \vdots \\ \frac{\partial}{\partial \theta_p} \end{array}\right]$
似然度通常取对数，这样比较好算（累乘变累加），也就是对数似然度
$l(\boldsymbol{\theta}) \equiv \ln p(\mathcal{D} \mid \boldsymbol{\theta}) \quad l(\boldsymbol{\theta})=\sum_{k=1}^n \ln p\left(\mathrm{x}_k \mid \boldsymbol{\theta}\right)$
ML估计
$\begin{aligned} & \hat{\boldsymbol{\theta}}=\arg \max _{\boldsymbol{\theta}} l(\boldsymbol{\theta}) \\ & \nabla_{\boldsymbol{\theta}} l=\sum_{k=1}^n \nabla_{\boldsymbol{\theta}} \ln p\left(\mathrm{x}_k \mid \boldsymbol{\theta}\right)=0 \\ & \frac{\partial l}{\partial \theta_j}=0, \quad j=1, \ldots, p \end{aligned}$

【例子】假设样本服从高斯分布，但是均值 $\mu$ 未知

单个样本的对数似然度极其梯度
$\begin{gathered} \ln p\left(\mathrm{x}_k \mid \boldsymbol{\mu}\right)=-\frac{1}{2} \ln \left[(2 \pi)^d|\boldsymbol{\Sigma}|\right]-\frac{1}{2}\left(\mathrm{x}_k-\boldsymbol{\mu}\right)^t \boldsymbol{\Sigma}^{-1}\left(\mathrm{x}_k-\boldsymbol{\mu}\right) \\ \nabla_{\boldsymbol{\theta}} \ln p\left(\mathrm{x}_k \mid \boldsymbol{\mu}\right)=\boldsymbol{\Sigma}^{-1}\left(\mathrm{x}_k-\boldsymbol{\mu}\right) \end{gathered}$
令梯度为0，可以看到均值的最大似然估计就是样本均值
$\begin{aligned} \nabla_{\boldsymbol{\theta}} l(\boldsymbol{\theta})=0 & \Rightarrow \sum_{k=1}^n \boldsymbol{\Sigma}^{-1}\left(\mathrm{x}_k-\hat{\boldsymbol{\mu}}\right)=0 \\ & \Rightarrow \hat{\mu}=\frac{1}{n} \sum_{k=1}^n \mathrm{x}_k \end{aligned}$

【例子】假设样本服从高斯分布，但是均值 $\mu$ 和协方差矩阵 $\Sigma$ 均未知
（1）假设一维情况： $\theta_1=\mu$ and $\theta_2=\sigma^2$

单样本对数似然度
$\ln p\left(x_k \mid \boldsymbol{\theta}\right)=-\frac{1}{2} \ln 2 \pi \theta_2-\frac{1}{2 \theta_2}\left(x_k-\theta_1\right)^2$
对参数求梯度
$\nabla_{\boldsymbol{\theta}} l=\nabla_{\boldsymbol{\theta}} \ln p\left(x_k \mid \boldsymbol{\theta}\right)=\left[\begin{array}{c} \frac{1}{\theta_2}\left(x_k-\theta_1\right) \\ -\frac{1}{2 \theta_2}+\frac{\left(x_k-\theta_1\right)^2}{2 \theta_2^2} \end{array}\right]$
令梯度为0，解方程得
$\begin{aligned} \nabla_{\boldsymbol{\theta}} l(\boldsymbol{\theta})&=0 \Rightarrow \sum_{k=1}^n \frac{1}{\hat{\theta}_2}\left(x_k-\hat{\theta}_1\right)=0 \Rightarrow \hat{\mu}=\frac{1}{n} \sum_{k=1}^n x_k \\ -\sum_{k=1}^n \frac{1}{\hat{\theta}_2}&+\sum_{k=1}^n \frac{\left(x_k-\hat{\theta_1}\right)^2}{\hat{\theta}_2^2}=0 \Rightarrow \hat{\sigma}^2=\frac{1}{n} \sum_{k=1}^n\left(x_k-\hat{\mu}\right)^2 \end{aligned}$
这个估计是有偏估计，但是我忘记怎么证了（手动狗头），本科概率论有讲
$\mathcal{E}\left[\frac{1}{n} \sum_{i=1}^n\left(x_i-\bar{x}\right)^2\right]=\frac{n-1}{n} \sigma^2 \neq \sigma^2$

（2）多变量情形
$\begin{aligned} \nabla_{\boldsymbol{\theta}} l & =\sum_{k=1}^n \nabla_{\boldsymbol{\theta}} \ln p\left(\mathrm{x}_k \mid \boldsymbol{\theta}\right)=0 \\ \hat{\mu} & =\frac{1}{n} \sum_{k=1}^n \mathrm{x}_k \\ \widehat{\boldsymbol{\Sigma}} & =\frac{1}{n} \sum_{k=1}^n\left(\mathrm{x}_k-\hat{\boldsymbol{\mu}}\right)\left(\mathrm{x}_k-\hat{\boldsymbol{\mu}}\right)^t \end{aligned}$

无偏估计应该是这样的，但是实际差别不大
$\begin{aligned} & \mathcal{E}\left[\frac{1}{n-1} \sum_{i=1}^n\left(x_i-\bar{x}\right)^2\right]=\sigma^2 \\ & \mathbf{C}=\frac{1}{n-1} \sum_{k=1}^n\left(\mathbf{x}_k-\hat{\boldsymbol{\mu}}\right)\left(\mathrm{x}_k-\hat{\boldsymbol{\mu}}\right)^t \end{aligned}$

贝叶斯参数估计

后验概率（全概率公式，后面都带一个 $\mathcal{D}$ ，代表样本集）
$P\left(\omega_i \mid \mathbf{x}, \mathcal{D}\right)=\frac{p\left(\mathbf{x} \mid \omega_i, \mathcal{D}\right) P\left(\omega_i \mid \mathcal{D}\right)}{\sum_{j=1}^c p\left(\mathbf{x} \mid \omega_j, \mathcal{D}\right) P\left(\omega_j \mid \mathcal{D}\right)}$
假设先验概率和样本无关
$P\left(\omega_i \mid \mathbf{x}, \mathcal{D}\right)=\frac{p\left(\mathbf{x} \mid \omega_i, \mathcal{D}_i\right) P\left(\omega_i\right)}{\sum_{j=1}^c p\left(\mathbf{x} \mid \omega_j, \mathcal{D}_j\right) P\left(\omega_j\right)}$
我们已知样本集 $\mathcal{D}$ ，去估计 $\mathbf{x}$
$\begin{aligned} p(\mathbf{x} \mid \mathcal{D}) & =\int p(\mathbf{x}, \boldsymbol{\theta} \mid \mathcal{D}) d \theta \\ & =\int p(\mathbf{x} \mid \boldsymbol{\theta}) \underline{p(\boldsymbol{\theta} \mid \mathcal{D})} d \boldsymbol{\theta} \end{aligned}$
我们知道 $p(\mathbf{x} \mid \boldsymbol{\theta})$ ，但不知道 $p(\boldsymbol{\theta} \mid \mathcal{D})$ ，这就是贝叶斯估计要解的问题，咱们是在已知样本集的情况下，去估计未知参数的分布 $p(\boldsymbol{\theta} \mid \mathcal{D})$

高斯密度贝叶斯估计

一维情况估计 $p(\boldsymbol{\theta} \mid \mathcal{D})$
假设样本服从高斯分布 $\mid \mu) \sim N\left(\mu, \sigma^2\right)$ ，假设均值也服从高斯分布 $p(\mu) \sim N\left(\mu_0, \sigma_0^2\right)$ ， $\mid \mu)=\prod_{k=1}^n p\left(x_k \mid \mu\right)$
$\begin{aligned} p(\mu \mid \mathcal{D}) & =\frac{p(\mathcal{D} \mid \mu) p(\mu)}{\int p(\mathcal{D} \mid \mu) p(\mu) d \mu} & =\alpha \prod_{k=1}^n p\left(x_k \mid \mu\right) p(\mu) \end{aligned}$
$\alpha$ 是个归一化常数
$\begin{aligned} p(\mu \mid \mathcal{D})&=\alpha \prod_{k=1}^n \overbrace{\frac{1}{\sqrt{2 \pi} \sigma} \exp \left[-\frac{1}{2}\left(\frac{x_k-\mu}{\sigma}\right)^2\right]}^{p\left(x_k \mid \mu\right)} \overbrace{\frac{1}{\sqrt{2 \pi} \sigma_0} \exp \left[-\frac{1}{2}\left(\frac{\mu-\mu_0}{\sigma_0}\right)^2\right]}^{p(\mu)} \\ & =\alpha^{\prime} \exp \left[-\frac{1}{2}\left(\sum_{k=1}^n\left(\frac{\mu-x_k}{\sigma}\right)^2+\left(\frac{\mu-\mu_0}{\sigma_0}\right)^2\right)\right] \\ & =\alpha^{\prime \prime} \exp \left[-\frac{1}{2}\left[\left(\frac{n}{\sigma^2}+\frac{1}{\sigma_0^2}\right) \mu^2-2\left(\frac{1}{\sigma^2} \sum_{k=1}^n x_k+\frac{\mu_0}{\sigma_0^2}\right) \mu\right]\right] \\ & \end{aligned}$
$p(\mu \mid \mathcal{D})=\frac{1}{\sqrt{2 \pi} \sigma_n} \exp \left[-\frac{1}{2}\left(\frac{\mu-\mu_n}{\sigma_n}\right)^2\right]$
$\sigma_n^2=\frac{\sigma_0^2 \sigma^2}{n \sigma_0^2+\sigma^2} \longrightarrow \mu_n=\left(\frac{n \sigma_0^2}{n \sigma_0^2+\sigma^2}\right) \hat{\mu}_n+\frac{\sigma^2}{n \sigma_0^2+\sigma^2} \mu_0$

贝叶斯估计一般情况

估计参数后验概率分布
$p(\boldsymbol{\theta} \mid \mathcal{D})=\frac{p(\mathcal{D} \mid \boldsymbol{\theta}) p(\boldsymbol{\theta})}{\int p(\mathcal{D} \mid \boldsymbol{\theta}) p(\boldsymbol{\theta}) d \boldsymbol{\theta}} \quad p(\mathcal{D} \mid \boldsymbol{\theta})=\prod_{k=1}^n p\left(\mathbf{x}_k \mid \boldsymbol{\theta}\right)$
估计数据概率分布
$p(\mathbf{x} \mid \mathcal{D})=\int p(\mathbf{x} \mid \boldsymbol{\theta}) p(\boldsymbol{\theta} \mid \mathcal{D}) d \boldsymbol{\theta}$
$\text { If } p(\theta \mid D) \text { peaks at } \boldsymbol{\theta}=\hat{\boldsymbol{\theta}}, p(\mathbf{x} \mid \mathrm{D}) \text { will be approximately } p(\mathbf{x} \mid \hat{\boldsymbol{\theta}})$