两个高斯分布乘积的推导及解释,BPMF 公式推导

本文探讨了两个高斯分布乘积的性质及其在Bayesian Probabilistic Matrix Factorization (BPMF)模型中的应用。介绍了如何通过求导方法简化计算过程,并详细推导了BPMF模型中参数的更新公式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

两个高斯分布乘积服从高斯分布
BPMF模型中公式推导
高斯先验+ 高斯似然=高斯后验分布
然而,很多时候, 化简成 标准的形式是困难的。
本文考虑从一阶导数、二阶导数角度获得参数 μ,Λ=1σ2 μ , Λ = 1 σ 2 .

1. 两个高斯分布的乘积

假设 f(x)N(μ1,Λ11),g(x)N(μ2,Λ12) f ( x ) ∼ N ( μ 1 , Λ 1 − 1 ) , g ( x ) ∼ N ( μ 2 , Λ 2 − 1 ) 都是高斯分布,即:

f(x)=Λ12πexpΛ1(xμ1)22g(x)=Λ22πexpΛ2(xμ2)22 f ( x ) = Λ 1 2 π exp − Λ 1 ( x − μ 1 ) 2 2 g ( x ) = Λ 2 2 π exp − Λ 2 ( x − μ 2 ) 2 2

h(x)=f(x)g(x) h ( x ) = f ( x ) g ( x ) , 则 h(x) h ( x ) 也是高斯分布;正态分布的共轭先验是正态分布

h(x)=f(x)g(x)=Λ1Λ22πexpΛ1(xμ1)22Λ2(xμ2)22 h ( x ) = f ( x ) g ( x ) = Λ 1 Λ 2 2 π exp − Λ 1 ( x − μ 1 ) 2 2 − Λ 2 ( x − μ 2 ) 2 2

现在,我们想要获得 f(x) f ( x ) 的标准型,即获得其均值 μ μ ,方差 σ2=Λ1 σ 2 = Λ − 1 .

(1). 直接通过配方,化简:
这是一种常用的方法,但是多数时候化简挺复杂的;
最终的结果如下:

h(x)N(μ,Λ1)μ=σ22=μ1σ22+μ2σ21σ21σ22=μ1Λ1+μ2Λ2Λ1+Λ2Λ=1σ2=1σ21+1σ22=Λ1+Λ2 h ( x ) ∼ N ( μ , Λ − 1 ) μ = σ 2 2 = μ 1 σ 2 2 + μ 2 σ 1 2 σ 1 2 σ 2 2 = μ 1 Λ 1 + μ 2 Λ 2 Λ 1 + Λ 2 Λ = 1 σ 2 = 1 σ 1 2 + 1 σ 2 2 = Λ 1 + Λ 2

(2). 通过求导方法获得:

正态分布是一个抛物线,开口向下,均值处获得峰值;故 h(x)=0 h ( x ) ′ = 0 ,可以的获得均值;
曲线的弯曲程度由曲率决定,曲率公式:

K=|y′′|(1+y)3/2 K = | y ″ | ( 1 + y ′ ) 3 / 2

所以,对于正态函数而言, μ μ 处的曲率与 σ2 σ 2 成反比,恰好等于其二阶导数;值越大,说明曲线越平缓;越小,数据越集中在均值周围,曲线越陡峭;
因此二阶导数反映了其变化程度,协助我们获得精确度 Λ Λ .

通过以上分析,计算 μ,Λ μ , Λ 如下:

h(x)=CexpLL(Λ1+Λ2)x+μ1Λ1+μ2Λ2=0μ=μ1Λ1+μ2Λ2Λ1+Λ2 h ( x ) ′ = C ∗ exp L ∗ L ′ 即 : − ( Λ 1 + Λ 2 ) x + μ 1 Λ 1 + μ 2 Λ 2 = 0 μ = μ 1 Λ 1 + μ 2 Λ 2 Λ 1 + Λ 2

h(μ)′′=CexpL(L′′)=cL′′=c(Λ1+Λ2)σ2=Λ=Λ1+Λ2 h ( μ ) ″ = C ∗ exp L ∗ ( L ″ ) = c ∗ L ″ = − c ∗ ( Λ 1 + Λ 2 ) 则 , σ − 2 = Λ = Λ 1 + Λ 2


2. BPMF 公式推导


回顾PMF模型: 假设 U,V U , V 及误差都服从高斯分布;最大log-后验概率可得到模型最终的目标函数;我们发现最终的目标函数等价于带L2范数的均方误差。
但是PMF中涉及到超参数太多,我们需要多次交叉验证获得;这个是困难的,需要很强的调参技巧。
针对PMF的参数问题,BPMF提出可以利用贝叶斯推测来解决。假设参数的先验分布服从高斯分布,最后利用MCMC的gibbs 采样获得超参数及U,V。

假设 UN(μu,Λ1u),VN(μv,Λ1v),Ri,jUTiVjN(0,α1) U ∼ N ( μ u , Λ u − 1 ) , V ∼ N ( μ v , Λ v − 1 ) , R i , j − U i T V j ∼ N ( 0 , α − 1 ) . 同时参数 Ω={μ,Λ}N(w0,σ20) Ω = { μ , Λ } ∼ N ( w 0 , σ 0 − 2 ) .
现在,我们可以获得参数 Ω Ω 的后验概率(有了后验概率,就可以使用gibbs 采样器进行采样)

最关键的是我们获得 Ui U i 的后验概率:
现在,

Ri,jUTiVjN(0,α1)Ri,jN(UTiVj,α1)p(Ri|Ui,V,α)=jMα2πexpα(Ri,jUTiVj)22f(Ui)=Cexpα2Mj(Ri,jUTiVj)2f(Ui)N(μ1,Λ11)f(Ui)=0,μ1=(αRiVT)(αVVT)1,f(Ui)′′Λ1=αVVT. R i , j − U i T V j ∼ N ( 0 , α − 1 ) 则 , R i , j ∼ N ( U i T V j , α − 1 ) p ( R i | U i , V , α ) = ∏ j M α 2 π exp − α ( R i , j − U i T V j ) 2 2 ∝ f ( U i ) = C ∗ exp − α 2 ∑ j M ( R i , j − U i T V j ) 2 f ( U i ) ∼ N ( μ 1 , Λ 1 − 1 ) 根 据 f ( U i ) ′ = 0 , 得 到 μ 1 = ( α R i V T ) ( α V V T ) − 1 , 根 据 f ( U i ) ″ , 得 到 Λ 1 = α V V T .

* 重新定义问题:需要估计的参数是 Ui U i : *
现在已知似然函数 p(Ri|Ui,V,α) p ( R i | U i , V , α ) , 先验函数 p(Ui|μ0,Λ10) p ( U i | μ 0 , Λ 0 − 1 ) .**
后验概率 先验概率* 似然函数:

p(Ui|Ri,V,α)p(Ui|μ0,Λ0)p(Ri|Ui,V,α)CexpαMj(Ri,juTiVj)22Λ0(Uiμ0)22N(μ1,Λ11)N(μ0,Λ10)N(μ,Λ1) p ( U i | R i , V , α ) ∝ p ( U i | μ 0 , Λ 0 ) p ( R i | U i , V , α ) ∝ C ∗ exp − α ∑ j M ( R i , j − u i T V j ) 2 2 − Λ 0 ( U i − μ 0 ) 2 2 ∼ N ( μ 1 , Λ 1 − 1 ) N ( μ 0 , Λ 0 − 1 ) ∼ N ( μ , Λ − 1 )

其中 参数 μ,Λ μ , Λ 的解法有两种,(1)直接利用原始一阶导数、二阶导数求解;(2)第一节,我们已经获得两个高斯分布的后验参数,现在可以直接带入标准公式获得:

μ=(αVVT+Λ2)1(RiVα+Λ0μ0)Λ=αVVT+Λ0 μ = ( α V V T + Λ 2 ) − 1 ( R i V α + Λ 0 μ 0 ) Λ = α V V T + Λ 0

同理,我们获得V的后验概率,最后利用gibbs采样即可。

1

评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值