机器学习：LDA_数学基础_1：贝叶斯数学_基础

最新推荐文章于 2020-09-08 19:21:00 发布

LandscapeMi

最新推荐文章于 2020-09-08 19:21:00 发布

阅读量647

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/mijian1207mijian/article/details/51613571

版权

机器学习专栏收录该内容

48 篇文章 0 订阅

订阅专栏

参数估计的方法
1. 矩估计
2. 最大似然估计
3. 最小二乘法
4. 贝叶斯估计

贝叶斯观点

贝叶斯公式
1. 全概率公式: $B_1,.....,B_n$ 是样本空间的一个完备事件群
  $p(A)=p(\sum_{i=1}^n AB_i)=\sum_{i=1}^np(A|B_i)p(B_i)$
  2.贝叶斯公式
  $p(B_i|A)=\frac{p(A|B_i)p(B_i)}{p(A)}=\frac{p(A|B_i)p(B_i)}{\sum_{j=1}^np(A|B_j)P(B_j)}$
频率学派：将样本视为来着一定概率分布的总体，所研究的对象是总体分布，而不是样本(发现了最小二乘和正态分布)
贝叶斯学派：
1. 先验信息：在抽样之前，关于统计推断问题中参数的先验知识（先验来着经验和历史）
2. 是否使用先验知识，是贝叶斯学派的特点
3. 重视已经出现的样本，对于未出现样本不考虑
4. 重点是如何确定先验分布
核心分歧：将参数 $\theta$ 看做固定参数还是随机变量

### 先验分布和后验分布
* $\pi(\theta) 是 \theta 的先验分布$

$\pi(\theta)$ 是随机变量 $\theta$ 的概率函数
( $\theta 是离散变量时\pi(\theta_i)是事件{\theta=\theta_i}的概率分布；\theta是连续变量的时候，\pi(\theta)是 \theta的密度函数$ )
$\pi(\theta)$ 在获取样本后，发生变化；
$\pi(\theta|x)$ 是给定x时随机变量 $\theta$ 的概率函数

后验分布
获取样本x后， $\theta$ 的后验分布就是 $X=x$ 条件下 $\theta$ 的条件分布， $\pi(\theta|x)$

$\pi(\theta|x)=\frac{h(\theta)}{m(x)}=\frac{f(x|\theta)\pi(\theta)}{\int_{\Theta}f(x|\theta)\pi(\theta)d\theta}$

$h(x,\theta)$ 是联合分布
$f(x|\theta)$ 是概率密度函数

$\pi(\theta_i|x)=\frac{f(x|\theta_i)\pi(\theta_i)}{\sum_if(x|\theta_i)\pi(\theta_i)}$

$f(x|\theta_i)是事件{X=x|\theta_i}的概率P(X=x|\theta_i)$

获得后验概率后可以使用后验均值作为 $\theta$ 的估计
$\hat{\theta}_B=E(\theta|x)=\int_{\Theta}\theta\pi(\theta|x)d_{\theta}$
$=\frac{\int_{\Theta}\theta f(x|\theta)\pi(\theta)d\theta}{m(x)}$

例子(Beta分布)

设随机变量X服从二项分布 $B(n,\theta)$ , $\theta$ 的先验分布是 $(0,1)$ 上的均匀分布 $U(0,1)$ ,求 $\theta$ 的贝叶斯点估计
解：
X的概率密度和 $\theta$ 的先验密度是
$f(x|\theta)=(_x^n)\theta^x(1-\theta)^{n-x}$
$\pi(\theta)=1$ $(0<\theta<1)$

X和 $\theta$ 的联合分布
$h(x,\theta)=(_x^n)\theta^x(1-\theta)^{n-x}$
X的边缘分布
$m(x)=\int _0^1 h(x,\theta)d\theta=\frac{1}{n+1}$
=>
$\theta$ 的后验概率是
$\pi(\theta|x)=\frac{h(x,\theta)}{m(x)}=...$
(Beta 分布)
=>
$\hat{\theta}_B=E(\theta|x)=\frac{x+1}{n+2}$