简单的贝叶斯高斯张量分解模型和代码实现

最新推荐文章于 2024-07-10 16:47:58 发布

cug第一深情

最新推荐文章于 2024-07-10 16:47:58 发布

阅读量374

点赞数 1

分类专栏：贝叶斯张量分解文章标签：算法

本文链接：https://blog.csdn.net/qq_45968933/article/details/129082560

版权

张量分解同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

贝叶斯

1 篇文章 0 订阅

订阅专栏

1、简单的贝叶斯高斯张量分解模型

先来看一个极简的模型。
$y_{ijt} \sim \mathcal{N}(\sum_{s=1}^r u_{is} v_{js} x_{ts},\tau^{-1})$

模型参数的先验分布:
$u_i,v_j,x_t \sim \mathcal{N}(0,[diag(\lambda)]^{-1}),\forall i,j,t$
$\tau \sim Gamma(\alpha,\beta)$
超参数的先验分布:
$\lambda_s \sim Gamma(\alpha,\beta),s=1,2,\dots,r$

2.2.1 推导模型参数 $u_i$ 的后验分布

就模型参数 $u_i$ 而言,似然来自 $\mathcal{Y}_{:jt}$ 中被观测到的元素:
$\mathcal{L} (\mathcal{Y}_{:jt} | u_i,V,X,\tau)$
$\Large \propto \prod_{:,j,t} e^{- \frac{1}{2} \tau(y_{ijt} - u_i^Tw_{jt})^2}$
是很多高斯分布的乘积。其中 $u_i^T w_{jt} = \sum_{s=1}^r u_{is} v_{js} x_{ts} ,w_{jt} = (v_{j} \circledast x_t) ,\circledast$ 代表点乘。
$\Large \propto \prod_{:,j,t} e^{- \frac{1}{2} \tau (y_{ijt} - u_i^Tw_{jt}) (y_{ijt} - u_i^Tw_{jt})^T}$
$\Large \propto e^{- \frac{1}{2} u_i^T (\tau \sum_{:,j,t} w_{jt} w_{jt}^T) u_i + \frac{1}{2} u_i^T (\tau \sum_{:,j,t} y_{ijt} w_{jt})}$
可以得到关于 $u_i$ 的多元正态分布
由于 $u_i \sim \mathcal{N}(0,[diag(\lambda)]^{-1})$
$\Large p(u_i | \lambda) \propto e^{-\frac{1}{2} u_i^T diag(\lambda) u_i}$
根据贝叶斯准则 $\propto prior \times likehood$
$p(u_i | V,X,\tau,\mathcal{Y}_{:j,t},\lambda) \propto p(u_i | \lambda) \times \mathcal{L}(\mathcal{Y}_{:j,t} |u_i,V,X,\tau)$
$\Large \propto e^{-\frac{1}{2} u_i^T diag(\lambda) u_i} e^{- \frac{1}{2} u_i^T (\tau \sum_{:,j,t} w_{jt} w_{jt}^T) u_i + \frac{1}{2} u_i^T (\tau \sum_{:,j,t} y_{ijt} w_{jt})}$
$\Large \propto e^{-\frac{1}{2} u_i^T [diag(\lambda) + \tau \sum_{:,j,t} w_{jt} w_{jt}^T] u_i} e^{\frac{1}{2} u_i^T (\tau \sum_{:,j,t} y_{ijt} w_{jt})}$
令 $\widetilde{\Lambda}_u = diag(\lambda) + \tau \sum_{:,j,t} w_{jt} w_{jt}^T$
$\Large \propto e^{-\frac{1}{2} u_i^T \widetilde{\Lambda}_u u_i + \frac{1}{2} u_i^T (\tau \sum_{:,j,t} y_{ijt} w_{jt})}$
$\Large \propto e^{-\frac{1}{2} (u_i - \widetilde{u}_u)^T \widetilde{\Lambda}_u (u_i - \widetilde{u}_u)}$
其中 $\widetilde{u}_u = \tau \widetilde{\Lambda}_u^{-1} \sum_{:,j,t} y_{ijt} w_{jt}$
即: $u_i \sim \mathcal{N}(\widetilde{u}_u,\widetilde{\Lambda}_u^{-1})$

2.2.2 推导模型参数 $v_j$ 的后验分布

与 $u_i$ 的推导类似
$\widetilde{\Lambda}_v = diag(\lambda) + \tau \sum_{i,:,t} w_{it} w_{it}^T$
其中 $\widetilde{v}_v = \tau \widetilde{\Lambda}_v^{-1} \sum_{i,:,t} y_{ijt} w_{it}$
即: $v_j \sim \mathcal{N}(\widetilde{v}_v,\widetilde{\Lambda}_v^{-1})$

2.2.3 推导模型参数 $x_t$ 的后验分布

与 $u_i$ 的推导类似
$\widetilde{\Lambda}_x = diag(\lambda) + \tau \sum_{i,j,:} w_{ij} w_{ij}^T$
其中 $\widetilde{x}_x = \tau \widetilde{\Lambda}_x^{-1} \sum_{i,j,:} y_{ijt} w_{ij}$
即: $x_t \sim \mathcal{N}(\widetilde{x}_x,\widetilde{\Lambda}_x^{-1})$

2.2.4 推导模型参数 $\tau$ 的后验分布

已知先验 $\Large p(\tau | \alpha_0,\beta_0) = p(\tau | \alpha_0,\beta_0) = \frac{(\beta_0)^{\alpha_0}}{\Gamma(\alpha_0)} (\tau)^{\alpha_0-1} e^{-\beta_0\tau}$
就模型参数 $\tau$ 而言,似然主要来自于 $\mathcal{Y}$
$\Large \mathcal{L}(\mathcal{Y} | \tau,U,V,X) \propto \prod_{i=1}^m \prod_{j=1}^n \prod_{t=1}^f \tau^{1/2} e^{-\frac{1}{2} \tau (y_{ijt} - \sum_{s=1}^r u_{is} v_{js} x_{ts})^2 }$
$\Large \propto \tau^{\frac{1}{2}(m + n + f)} e^{-\frac{1}{2} \tau \sum_{i,j,t \in \Omega}(y_{ijt} - \sum_{s=1}^r u_{is} v_{js} x_{ts})^2 }$
所以: $\large p(\tau|-) \propto \mathcal{L}(\mathcal{Y} | \tau,U,V,X) \times p(\tau | \alpha_0,\beta_0)$
$\Large \propto \tau^{\frac{1}{2}(m + n + f)} e^{-\frac{1}{2} \tau \sum_{i,j,t \in \Omega}(y_{ijt} - \sum_{s=1}^r u_{is} v_{js} x_{ts})^2 } (\tau)^{\alpha_0-1} e^{-\beta_0\tau}$
$\Large \propto \tau^{\frac{1}{2}(m + n + f) + \alpha_0 -1} e^{-\frac{1}{2} \tau \left[\beta_0 + \sum_{i,j,t \in \Omega}(y_{ijt} - \sum_{s=1}^r u_{is} v_{js} x_{ts})^2 \right] }$

在张量分解的贝叶斯网络中,可以通过 $\tau \sim Gamma(\widetilde{\alpha},\widetilde{\beta})$ 对参数 $\tau$ 进行采样更新,其中:
$\widetilde{\alpha} = a_0 + \frac{1}{2} \sum_{i,j,t \in \Omega} 1 (y_{ijt} \neq 0)$
$\widetilde{\beta} = \beta_0 + \frac{1}{2} \sum_{i,j,t \in \Omega} (y_{ijt} - \sum_{s=1}^r u_{is} v_{js} x_{ts})^2$

2.2.5 推导模型参数 $\lambda$ 的后验分布

已知先验分布 $\Large p(\lambda_s | \alpha_0,\beta_0) = p(\lambda_s | \alpha_0,\beta_0) = \frac{(\beta_0)^{\alpha_0}}{\Gamma(\alpha_0)} (\lambda_s)^{\alpha_0-1} e^{-\beta_0 \lambda_s}$
就模型参数 $\lambda_s$ 而言,其似然主要来自于 $U, V, X$
尽管超参数 $\lambda$ 与参数 $\tau$ 都被假设服从伽马分布,但不同的是,参数 $\lambda$ 作为一个向量,对应多元正态分布中的协方差矩阵,在这里,不妨以 $u_i$ 为例,先写一下多元正态分布的形式
$\Large p(u_i | \lambda) = \frac{|diag(\lambda)|^{1/2}}{(2\pi)^{r/2}} e^{-\frac{1}{2} u_i^T diag(\lambda) u_i}$
从这条公式中,对于任意 $\lambda_{s} ~ s=1,2,\dots,r$
$\Large p(u_{is}| \lambda_{s}) \propto (\lambda_{s})^{1/2} e^{-\frac{1}{2} \lambda_{s} u_{is}^2}$
所以 $\Large \mathcal{L}(U,V,X | \lambda_s) \propto \prod_{i=1}^m (\lambda_{s})^{1/2} e^{-\frac{1}{2} \lambda_{s} u_{is}^2} \prod_{j=1}^n (\lambda_{s})^{1/2} e^{-\frac{1}{2} \lambda_{s} v_{js}^2} \prod_{t=1}^f (\lambda_{s})^{1/2} e^{-\frac{1}{2} \lambda_{s} x_{ts}^2}$
$\Large \propto (\lambda_s)^{(m+n+f)} e^{-\frac{1}{2} \lambda_s \left[ \sum_{i=1}^m u_{is}^2 + \sum_{j=1}^n v_{js}^2 + \sum_{t=1}^f x_{ts}^2 \right]}$
所以 $\large p(\lambda_s | U,V,X,\alpha_0,\beta_0) = p(\lambda_s | \alpha_0,\beta_0) \times \mathcal{L}(U,V,X | \lambda_s)$
$\Large \propto (\lambda_s)^{(m+n+f)} e^{-\frac{1}{2} \lambda_s \left[ \sum_{i=1}^m u_{is}^2 + \sum_{j=1}^n v_{js}^2 + \sum_{t=1}^f x_{ts}^2 \right]} (\lambda_s)^{\alpha_0-1} e^{-\beta_0 \lambda_s}$
$\Large \propto (\lambda_s)^{(m+n+f) + \alpha_0-1} e^{- \lambda_s \left[\frac{1}{2} (\sum_{i=1}^m u_{is}^2 + \sum_{j=1}^n v_{js}^2 + \sum_{t=1}^f x_{ts}^2 )+ \beta_0 \right]}$

超参数 $\lambda_s \sim Gamma(\widetilde{\alpha},\widetilde{\beta}),s=1,2,\dots,r$
$\widetilde{\alpha} = \alpha_0 + \frac{1}{2} (m+n+f)$
$\widetilde{\beta} = \beta_0 + \frac{1}{2} (\sum_{i=1}^m u_{is}^2 + \sum_{j=1}^n v_{js}^2 + \sum_{t=1}^f x_{ts}^2)$