两个高斯分布乘积的推导及解释，BPMF 公式推导

最新推荐文章于 2025-04-20 04:16:21 发布

冰鋒

最新推荐文章于 2025-04-20 04:16:21 发布

阅读量2.9w

点赞数 7

分类专栏：机器学习推荐系统文章标签：高斯分布

本文链接：https://blog.csdn.net/lmm6895071/article/details/79771606

版权

机器学习同时被 2 个专栏收录

15 篇文章

订阅专栏

推荐系统

7 篇文章

订阅专栏

本文探讨了两个高斯分布乘积的性质及其在Bayesian Probabilistic Matrix Factorization (BPMF)模型中的应用。介绍了如何通过求导方法简化计算过程，并详细推导了BPMF模型中参数的更新公式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

- 1. 两个高斯分布的乘积
- 2. BPMF 公式推导

两个高斯分布乘积服从高斯分布
BPMF模型中公式推导
高斯先验+ 高斯似然=高斯后验分布
然而，很多时候， 化简成 标准的形式是困难的。
本文考虑从一阶导数、二阶导数角度获得参数 $\mu,\Lambda=\frac{1}{\sigma^2}$ .

1. 两个高斯分布的乘积

假设 $f(x) \sim \mathcal N(\mu_1,\Lambda_1^{-1}) ,g(x) \sim \mathcal N(\mu_2, \Lambda_2^{-1})$ 都是高斯分布，即：

f (x) = Λ - - \sqrt 1 2 π - - \sqrt exp - Λ 1 ( x - μ 1 ) 2 2 g (x) = Λ - - \sqrt 2 2 π - - \sqrt exp - Λ 2 ( x - μ 2 ) 2 2

$f(x) = \frac{\sqrt \Lambda_1}{\sqrt{2\pi}}\exp^{-\frac{\Lambda_1(x-\mu_1)^2}{2}}\\g(x) = \frac{\sqrt \Lambda_2}{\sqrt{2\pi}}\exp^{-\frac{\Lambda_2(x-\mu_2)^2}{2}}$

令 $h(x) =f(x)g(x)$ , 则 $h(x)$ 也是高斯分布；正态分布的共轭先验是正态分布；

h (x) = f (x) g (x) = Λ 1 Λ 2 - - - - \sqrt 2 π exp - Λ 1 ( x - μ 1 ) 2 2 - Λ 2 ( x - μ 2 ) 2 2

$h(x)=f(x)g(x)=\frac{\sqrt {\Lambda_1 \Lambda_2}}{2\pi}\exp^{-\frac{\Lambda_1(x-\mu_1)^2}{2}-\frac{\Lambda_2(x-\mu_2)^2}{2}}$
现在，我们想要获得

f(x) f ( x ) $f(x)$ 的标准型，即获得其均值

μ μ $\mu$ ，方差

σ2=Λ−1 σ 2 = Λ − 1 $\sigma^2=\Lambda^{-1}$ .

(1). 直接通过配方，化简：
这是一种常用的方法，但是多数时候化简挺复杂的；
最终的结果如下：

h (x) \sim N (μ, Λ - 1) μ = σ 22 = μ 1 σ 2 2 + μ 2 σ 2 1 σ 2 1 σ 2 2 = μ 1 Λ 1 + μ 2 Λ 2 Λ 1 + Λ 2 Λ = 1 σ 2 = 1 σ 2 1 + 1 σ 2 2 = Λ 1 + Λ 2

$h(x) \sim \mathcal N(\mu,\Lambda^{-1})\\ \mu = {\sigma_2^2}=\frac{\mu_1\sigma_2^2+\mu_2\sigma_1^2}{\sigma_1^2 \sigma_2^2}=\frac{\mu_1\Lambda_1+\mu_2\Lambda_2}{\Lambda_1+\Lambda_2}\\ \Lambda=\frac{1}{\sigma^2}=\frac{1}{\sigma_1^2}+\frac{1}{\sigma_2^2}=\Lambda_1+\Lambda_2$
(2). 通过求导方法获得：

正态分布是一个抛物线，开口向下，均值处获得峰值；故 $h(x)^{'}=0$ ,可以的获得均值；
曲线的弯曲程度由曲率决定，曲率公式:
$K = | y '' | ( 1 + y ' ) 3 / 2$ $\mathcal K=\frac{|y^{''}|}{(1+y^{'})^{3/2}}$
所以，对于正态函数而言， 在 $\mu$ 处的曲率与 $\sigma^2$ 成反比，恰好等于其二阶导数；值越大，说明曲线越平缓；越小，数据越集中在均值周围，曲线越陡峭；
因此二阶导数反映了其变化程度，协助我们获得精确度 $\Lambda$ .

通过以上分析，计算 $\mu,\Lambda$ 如下：

h (x)' = C * exp L * L' 即 ： - (Λ 1 + Λ 2) x + μ 1 Λ 1 + μ 2 Λ 2 = 0 μ = μ 1 Λ 1 + μ 2 Λ 2 Λ 1 + Λ 2

$h(x)^{'} =C * \exp^{L} * L^{'} \\即：-(\Lambda_1+\Lambda_2)x+\mu_1\Lambda_1+\mu_2\Lambda_2=0\\ \mu =\frac{\mu_1\Lambda_1+\mu_2\Lambda_2}{\Lambda_1+\Lambda_2}$

h (μ)'' = C * exp L * (L'') = c * L'' = - c * (Λ 1 + Λ 2) 则 ， σ - 2 = Λ = Λ 1 + Λ 2

$h(\mu)^{''}=C * \exp^L *(L^{''})=c * L^{''} =-c*(\Lambda_1+\Lambda_2)\\ 则，\sigma^{-2} = \Lambda = \Lambda_1+\Lambda_2$

2. BPMF 公式推导

回顾PMF模型：假设 $U,V$ 及误差都服从高斯分布；最大log-后验概率可得到模型最终的目标函数；我们发现最终的目标函数等价于带L2范数的均方误差。
但是PMF中涉及到超参数太多，我们需要多次交叉验证获得；这个是困难的，需要很强的调参技巧。
针对PMF的参数问题，BPMF提出可以利用贝叶斯推测来解决。假设参数的先验分布服从高斯分布，最后利用MCMC的gibbs 采样获得超参数及U，V。

假设 $U \sim \mathcal N(\mu_u,\Lambda_u^{-1}),V \sim \mathcal N(\mu_v,\Lambda_v^{-1}),R_{i,j}-U_i^TV_j \sim \mathcal N(0,\alpha^{-1})$ . 同时参数 $\Omega=\{ \mu,\Lambda \} \sim \mathcal N(w_0,\sigma_0^{-2})$ .
现在，我们可以获得参数 $\Omega$ 的后验概率（有了后验概率，就可以使用gibbs 采样器进行采样）

最关键的是我们获得 $U_i$ 的后验概率：
现在，

R i, j - U T i V j \sim N (0, α - 1) 则 ， R i, j \sim N (U T i V j, α - 1) p (R i | U i, V, α) = \prod j M α - - \sqrt 2 π - - \sqrt exp - α ( R i , j - U T i V j ) 2 2 \propto f (U i) = C * exp - α 2 \sum M j (R i, j - U T i V j) 2 f (U i) \sim N (μ 1, Λ - 1 1) 根 据 f (U i)' = 0, 得 到 μ 1 = (α R i V T) (α V V T) - 1, 根 据 f (U i)'' ， 得 到 Λ 1 = α V V T .

$R_i,j - U_i^TV_j \sim \mathcal N(0,\alpha^{-1})\\ 则，R_{i,j} \sim \mathcal N(U_i^TV_j,\alpha^{-1})\\ p(R_i|U_i,V,\alpha)=\prod_j^M \frac{\sqrt{\alpha}}{\sqrt{2\pi}} \exp^{ -\frac{\alpha(R_i,j - U_i^TV_j)^2}{2}} \propto f(U_i)=C * \exp^{\frac{-\alpha}{2}\sum_j^M(R_{i,j}-U_i^TV_j)^2}\\ f(U_i)\sim \mathcal N(\mu_1,\Lambda_1^{-1})\\ 根据f(U_i)^{'}=0 ,得到\mu_1=(\alpha R_iV^T)(\alpha VV^T)^{-1},\\ 根据f(U_i)^{''}，得到 \Lambda_1 = \alpha VV^T.$

* 重新定义问题：需要估计的参数是 $U_i$ : *
现在已知似然函数 $p(R_i|U_i,V,\alpha)$ , 先验函数 $p(U_i|\mu_0,\Lambda_0^{-1})$ .**
后验概率 $\sim$ 先验概率* 似然函数：

p (U i | R i, V, α) \propto p (U i | μ 0, Λ 0) p (R i | U i, V, α) \propto C * exp - α \sum M j ( R i , j - u T i V j ) 2 2 - Λ 0 ( U i - μ 0 ) 2 2 \sim N (μ 1, Λ - 1 1) N (μ 0, Λ - 1 0) \sim N (μ, Λ - 1)

$p(U_i|R_i,V,\alpha) \propto p(U_i|\mu_0,\Lambda_0)p(R_i|U_i,V,\alpha)\\ \propto C*\exp^{-\frac{\alpha \sum_j^M(R_i,j-u_i^TV_j)^2}{2}-\frac{\Lambda_0(U_i-\mu_0)^2}{2}}\\ \sim \mathcal N(\mu_1,\Lambda_1^{-1}) \mathcal N(\mu_0,\Lambda_0^{-1}) \sim \mathcal N(\mu,\Lambda^{-1})$

其中参数 $\mu,\Lambda$ 的解法有两种，（1）直接利用原始一阶导数、二阶导数求解；（2）第一节，我们已经获得两个高斯分布的后验参数，现在可以直接带入标准公式获得：