统计计算第一节课简单介绍和一些准备知识

最新推荐文章于 2022-01-30 21:54:36 发布

sakamodosan

最新推荐文章于 2022-01-30 21:54:36 发布

阅读量182

点赞数

分类专栏：统计计算文章标签：统计计算贝叶斯最大似然基础知识

本文链接：https://blog.csdn.net/panshuaiyin/article/details/100713367

版权

统计计算专栏收录该内容

6 篇文章 3 订阅

订阅专栏

这是我上的统计计算课讲的主要内容，写在这可以互相交流，有些地方我不是很理解的会标出来，求大佬在留言处表达自己的看法，另外如果有啥问题也可以在留言处留言，如果我看到了会回复

一些模型的科普

线性模型，logistic模型，高斯混合模型

很容易，其他地方也有很多资料，故不写

系统发育树模型

可能开一个新坑写，但在此不写

LDA模型（主题分析）

已经开了一个新坑去写了

一些关于似然函数的东西

为了简单起见，我们假设只有一个样本X，并且X服从参数为 $\theta$ 的分布 $p(x|\theta)$ ，其中 $\theta$ 是一维的，所以对数似然函数
$L(\theta;x)=p(x|\theta)$
定义L关于 $\theta$ 的梯度为score function，即
$s(\theta;x)=\frac{\partial L}{\partial \theta}$
在一些正则性条件下（目的是想让求导和积分可交换，例如指数分布族就满足这些条件），我们有
$E (s) = 0 （推导较为容易）$
定义fisher信息量 $I(\theta;x)$ ，即为score function的方差
$I(\theta;x)=E(ss^T)$
同样在一些正则性条件下，有
$I(\theta;x)=-E(\frac{\partial^2 L}{\partial \theta \partial \theta^T})$
直观来看Fisher信息量是似然函数在 $\theta$ 处的曲率，只不过这种曲率取了期望（因为曲率也有分布），而曲率能够反映函数在一点的敏感程度，所以Fisher信息量能够反映建立的模型在某参数处的稳定程度。

下面我们定义KL距离（Kullback-Leibler divergence），并且用此距离来从另一个角度粗略地解释最大似然估计，KL距离是度量两个分布的“距离”，但是没有对称性，所以严格来说不满足经典的距离的定义，假设我们有密度函数p和q，定义
$D_{KL}(q||p)=\int q(x)ln\frac{q(x)}{p(x)}dx$
可以验证KL距离非负，并且当p，q相同时，KL距离为0，下面说明KL距离与最大似然估计的关系，设x的真实分布为 $p_{data}(x)$ ，由于实际中不止一个样本，而是有大量的样本（假设有n个），所以由大数定律有
$\frac{1}{n}L(\theta;\bm{x}) \approx E_{x\sim p_{data}(x)}(ln(p(x|\theta)))$
设最大似然估计为 $\theta^*$ ，则
$\theta^* = \arg\max \limits_{\theta}\frac{1}{n}L(\theta;\bm{x}) \approx \arg\max \limits_{\theta} E_{x\sim p_{data}(x)}(ln(p(x|\theta)))$ $=\arg\max \limits_{\theta} E_{x\sim p_{data}(x)}(ln(\frac{p(x|\theta)}{p_{data}(x)}))$ $=\arg\min \limits_{\theta} D_{KL}(p_{data}(x)\|p(x|\theta))$
也就是说求最大似然估计是求一个含参分布，使得真实分布与这个含参分布的KL距离最小

下面应该是关于最大似然估计的相互性和方差的渐进收敛性，但是这部分我不会推导，求大佬告知。

贝叶斯推断

没啥好提的，其他地方也有很多资料，稍微提一下选择先验分布的问题
我知道的选择方法有：凭经验直觉选择一个先验，做分层模型（先验里继续套先验，拒绝套娃，从我做起。。），使用共轭先验分布（为了方便计算后验分布，因为先验和后验属于同一类）
而提到共轭先验分布就要提一下指数族，首先介绍一些定义，设 $p(\bm{x}|\bm{\theta})$ 属于指数分布族，则有
$p(\bm{x}|\bm{\theta})=h(\bm{x})\exp(\bm\phi(\bm{\theta})\cdot \bm{T}(\bm{x})-A(\bm{\theta}))$
其中 $\bm{T}(\bm{x})$ 是充分统计量，设先验分布为
$p(\bm{\theta}) \propto \exp(\phi(\bm{\theta})\cdot \nu-\eta A(\bm{\theta}))$
条件密度函数（没想到更好的词）为
$p(\bm{x}|\bm{\theta}) \propto \exp(\phi(\bm{\theta})\cdot \sum_iT(\bm{x_i})-nA(\bm{\theta}))$
则后验分布为
$p(\bm{\theta}|\bm{x}) \propto \exp(\phi(\bm{\theta})\cdot (\nu+\sum_iT(\bm{x_i}))-(n+\eta)A(\bm{\theta}))$
和先验分布形式相同，便于计算