概率图模型
有向 vs 无向
概率图模型用图刻画一组随机变量之间的相关关系. 有向(无环)图刻画的概率图模型称作 bayesian network, 无向图刻画的概率图模型称作 markov network.
有向图模型和无向图模型直观的区别在于“因果性”, 本质的区别在于两种模型建模了不同的独立关系.例如,从 independence map 的角度: 有向图模型无法表示无向环形关系, 无向图模型无法表示有向 V 形结构.
无向图模型
Pr ( s ) = 1 Z ∏ C ϕ C ( s C ) \Pr(s) = \frac{1}{Z} \prod_{C} \phi_C(s_C) Pr(s)=Z1C∏ϕC(sC)
有向图模型
Pr ( s ) = ∏ i Pr ( s i ∣ p a r e n t ( s i ) ) \Pr(s) = \prod_i \Pr(s_i \vert \mathrm{parent}(s_i)) Pr(s)=i∏Pr(si∣parent(si))
概率模型
参数估计
参数分布
Pr ( θ ∣ S ) ∝ Pr ( θ ) Pr ( S ∣ θ ) \Pr(\theta \vert S) \propto \Pr(\theta) \Pr(S \vert \theta) Pr(θ∣S)∝Pr(θ)Pr(S∣θ)
极大后验
arg max θ Pr ( θ ∣ S ) = arg max θ Pr ( θ ) Pr ( S ∣ θ ) \arg \max_{\theta} \Pr(\theta \vert S) = \arg \max_{\theta} \Pr(\theta) \Pr(S \vert \theta) argθmaxPr(θ∣S)=argθmaxPr(θ)Pr(S∣θ)
极大似然 (极大后验的基础上假定参数的先验均匀)
arg max θ Pr ( θ ∣ S ) = arg max θ Pr ( S ∣ θ ) \arg \max_{\theta} \Pr(\theta \vert S) = \arg \max_{\theta} \Pr(S \vert \theta) argθmaxPr(θ∣S)=argθmaxPr(S∣θ)
隐变量估计
极大似然
arg max θ Pr ( θ ∣ S ) = arg max θ Pr ( S ∣ θ ) = arg max θ ∑ Z Pr ( S , Z ∣ θ ) \arg \max_{\theta} \Pr(\theta \vert S) = \arg \max_{\theta} \Pr(S \vert \theta) = \arg \max_{\theta} \sum_{Z} \Pr(S,Z \vert \theta) argθmaxPr(θ∣S)=argθmaxPr(S∣θ)=argθmaxZ∑Pr(S,Z∣θ)
似然下界
weighted algebra geometry inequality 角度:
∑ Z Pr ( S , Z ∣ θ ) = ∑ Z Pr ( Z ∣ η ) Pr ( S , Z ∣ θ ) Pr ( Z ∣ η ) ⩾ ∏ Z ( Pr ( S , Z ∣ θ ) Pr ( Z ∣ η ) ) Pr ( Z ∣ η ) \sum_{Z} \Pr(S,Z \vert \theta) = \sum_{Z} \Pr(Z \vert \eta) \frac{\Pr(S,Z \vert \theta)}{\Pr(Z \vert \eta)} \geqslant \prod_{Z} \left( \frac{\Pr(S,Z \vert \theta)}{\Pr(Z \vert \eta)} \right)^{\Pr(Z \vert \eta)} Z∑Pr(S,Z∣θ)=Z∑Pr(Z∣η)Pr(Z∣η)Pr(S,Z∣θ)⩾Z∏(Pr(Z∣η)Pr(S,Z∣θ))Pr(Z∣η)
jensen’s inequality 角度:
log ∑ Z Pr ( S , Z ∣ θ ) = log ∑ Z Pr ( Z ∣ η ) Pr ( S , Z ∣ θ ) Pr ( Z ∣ η ) ⩾ ∑ Z Pr ( Z ∣ η ) log Pr ( S , Z ∣ θ ) Pr ( Z ∣ η ) \log \sum_{Z} \Pr(S,Z \vert \theta) = \log \sum_{Z} \Pr(Z \vert \eta) \frac{\Pr(S,Z \vert \theta)}{\Pr(Z \vert \eta)} \geqslant \sum_{Z} \Pr(Z \vert \eta) \log \frac{\Pr(S,Z \vert \theta)}{\Pr(Z \vert \eta)} logZ∑Pr(S,Z∣θ)=logZ∑Pr(Z∣η)Pr(Z∣η)Pr(S,Z∣θ)⩾Z∑Pr(Z∣η)logPr(Z∣η)Pr(S,Z∣θ)
∑ Z Pr ( Z ∣ η ) log Pr ( S , Z ∣ θ ) Pr ( Z ∣ η ) = ∑ Z Pr ( Z ∣ η ) log Pr ( S , Z ∣ θ ) − ∑ Z Pr ( Z ∣ η ) log Pr ( Z ∣ η ) = ∑ Z Pr ( Z ∣ η ) log Pr ( S , Z ∣ θ ) + E n t r o p y ( Pr ( Z ∣ η ) ) \begin{aligned} \sum_{Z} \Pr(Z \vert \eta) \log \frac{\Pr(S,Z \vert \theta)}{\Pr(Z \vert \eta)} &= \sum_{Z} \Pr(Z \vert \eta) \log \Pr(S,Z \vert \theta) - \sum_{Z} \Pr(Z \vert \eta) \log \Pr(Z \vert \eta) \\ &= \sum_{Z} \Pr(Z \vert \eta) \log \Pr(S,Z \vert \theta) + \mathrm{Entropy}(\Pr(Z \vert \eta)) \\ \end{aligned} Z∑Pr(Z∣η)logPr(Z∣η)Pr(S,Z∣θ)=Z∑Pr(Z∣η)logPr(S,Z∣θ)−Z∑Pr(Z∣η)logPr(