贝叶斯推断
贝叶斯模型观点:参数模型 q(x;θ) q ( x ; θ ) 中的参数 θ θ 是被确定的变量(deterministic variable)。
贝叶斯预测分布
训练样本是 D={xi}ni=1 D = { x i } i = 1 n , p(θ|D) p ( θ | D ) 是给定训练样本 D D 的条件下参数 θ θ 的后验概率(posterior probability of parameter θ θ ) , p(θ) p ( θ ) 是未观测到训练样本 D D 时, θ θ 的先验概率(prior propability).
- 有似然(likelihood):
p(D|θ)=∏i=1nq(xi|θ)(1) (1) p ( D | θ ) = ∏ i = 1 n q ( x i | θ )
其中参数模型 q(x|θ) q ( x | θ ) 作为条件概率。
[注:因为参数被确定,即认为是已知条件,所以模型是条件概率的形式]。
- 有联合概率:
p(D,θ)=p(D|θ)p(θ)(2) (2) p ( D , θ ) = p ( D | θ ) p ( θ ) 参数 D D 的边缘分布:
带入得:
p(D)=∫(∏i=1nq(xi|θ))p(θ)dθ(4) (4) p ( D ) = ∫ ( ∏ i = 1 n q ( x i | θ ) ) p ( θ ) d θ贝叶斯推断的解(Bayesian predictive distribution)
P^(Bayes)(x) P ^ ( B a y e s ) ( x ) ,是参数模型
q(x|θ) q ( x | θ ) 在整个后验分布 p(θ|D) p ( θ | D ) 上的期望:
P^(Bayes)(x)=∫q(x|θ)p(θ|D)dθ(5) (5) P ^ ( B a y e s ) ( x ) = ∫ q ( x | θ ) p ( θ | D ) d θ由贝叶斯定理:
p(θ|D)=p(D|θ)p(θ)p(D)=∏ni=1q(xi|θ)p(θ)∫∏ni=1q(xi|θ′)p(θ′)dθ′(2)(6) (2) p ( θ | D ) = p ( D | θ ) p ( θ ) p ( D ) (6) = ∏ i = 1 n q ( x i | θ ) p ( θ ) ∫ ∏ i = 1 n q ( x i | θ ′ ) p ( θ ′ ) d θ ′
我的理解:分子的 θ θ 与分母的 θ′ θ ′ 区别开来是因为分母的 θ′ θ ′ 要做积分运算。
最后得到:
Bayes VS MLE
如图:
- 参数模型 q(x|θ) q ( x | θ ) 是一个概率密度函数族,实践中,由于误差等因素可能真实数据分布 p(x) p ( x ) 并不包含在参数模型中,如图,数据真实分布 p(x) p ( x ) 在右侧;
- MLE找到的最大似然 P^ML(x) P ^ M L ( x ) 等价于利用KL散度(empirical KL divergence) 去找到 p(x) p ( x ) 在参数模型 q(x|θ) q ( x | θ ) 上的映射。
贝叶斯推断的 P^(Bayes)(x) P ^ ( B a y e s ) ( x ) 并不限制在参数模型函数族上,如图,它比MLE的估计更接近真实分布 p(x) p ( x ) 。
贝叶斯推断和MLE根本的不同在于参数 θ θ 是确定的参数还是随机变量;更抽象的,先验概率 p(x) p ( x ) 在贝叶斯推断下有主观知识(subjective),这可以影响所求的解。另一方面,MLE是客观(objective)的,它的解完全由数据(data)来决定。
- *
计算问题
由于参数
θ
θ
的维度过高,会导致以下的公式计算困难:
解决办法:
- 分析地得到后验概率 p(θ|D) p ( θ | D ) 一种方法是选择先验概率 p(θ),从而显式地得到后验概率 p(θ|D) p ( θ | D ) 的参数形式。
- 使用从后验概率中
p(θ|D)
p
(
θ
|
D
)
提取的点
θ^
θ
^
去近似。
参考:《统计机器学习导论》