高斯场和高斯马尔可夫随机场
高斯场协方差矩阵计算问题一直是一个瓶颈,本文主要介绍用高斯马尔可夫随机场替换高斯场来逼近协方差函数的方法来简化计算上的复杂度。但这种方法依赖于若干假设,后面一篇文章说明Matérn协方差模型的高斯场可以满足这些假设,并且给出它与随机偏微分方程的关联。
1. 高斯场 (GFs) 的大 n n n 问题
高斯场(GFs)在空间统计学中扮演着主导角色,尤其是在传统的地统计学领域,并且是现代层次空间模型中的重要组成部分。
高斯场(GFs)是少数几种具有明确且可计算的归一化常数的适当多元模型之一,此外还具有良好的解析特性。
1.1. GFs 的定义
在定义域 D ⊂ R d \mathcal D \subset \mathbb{R}^d D⊂Rd 上,令 s ∈ D \mathbf s\in \mathcal D s∈D, x ( s ) x(\mathbf s) x(s)是一个连续索引的高斯场 是指对于任意有限集合 { x ( s i ) } \{ x(\mathbf s_i)\} {x(si)},它们的联合分布是多元高斯分布。
在大多数情况下,高斯场通过使用均值函数 μ ( ⋅ ) \mu(\cdot) μ(⋅) 和协方差函数 C ( ⋅ , ⋅ ) C(\cdot, \cdot) C(⋅,⋅) 来指定,其中均值为 μ = ( μ ( s i ) ) \mathbf \mu= (\mu(\mathbf s_i)) μ=(μ(si)),协方差矩阵为 Σ = ( C ( s i , s j ) ) \mathbf \Sigma= (C(\mathbf s_i, \mathbf s_j)) Σ=(C(si,sj))。
- 协方差函数通常只是“两个位置”相对位置的函数,这种情况下,它被称为平稳 (stationary) 的。
- 如果协方差函数仅依赖于位置之间的欧几里得距离,那么它是各向同性 (isotropic) 的,即不同方向所测得的性能数值相同。
协方差函数的正定性及其表示:由于正则(满秩)协方差矩阵是正定的,因此协方差函数必须是正定函数。这一限制使得“发明”以解析形式表达的协方差函数变得困难。在这种情况下,可以使用Bochner定理,因为它表征了 R d \mathbb R^d Rd中所有连续的正定函数。
- 协方差矩阵是一个对称正半定矩阵,满秩矩阵的所有特征值都是非零,故正则协方差矩阵(满秩)是正定矩阵的。
-
f
:
R
→
C
f: \mathbb{R} \rightarrow \mathbb{C}
f:R→C 被称为正定函数,如果对任意实数
x
1
,
…
,
x
n
x_1, \ldots, x_n
x1,…,xn,
n
×
n
n \times n
n×n 矩阵
A = ( a i j ) i , j = 1 n , a i j = f ( x i − x j ) A=\left(a_{i j}\right)_{i, j=1}^n, \quad a_{i j}=f\left(x_i-x_j\right) A=(aij)i,j=1n,aij=f(xi−xj)是正定矩阵。 - Bochner定理:实数线上任何连续正定函数都是一个(正)测度的傅里叶变换。
1.2. GFs 计算成本问题及传统解决方法
尽管高斯场从分析和实践的角度来看都很方便,但对协方差矩阵的计算成本问题一直是一个瓶颈。
- 这是由于因子分解稠密的 n × n n×n n×n(协方差)矩阵的一般成本为 O ( n 3 ) O(n^3) O(n3)。
- 尽管当今的计算能力处于历史最高水平,但趋势似乎是:维度 n n n 总是被设置(或想要的)得比给出的合理计算时间值稍高一些。
- 层次贝叶斯模型的日益普及使得这个问题更加重要,因为“重复计算(如基于模拟的模型拟合)可能非常慢,甚至不可行”
这种情况通常被非正式地称为“大 n n n 问题”。
有几种方法可以尝试克服或避免“大 n n n 问题”:
- 谱表示法的似然估计:利用离散傅里叶变换计算估计(功率)谱,并从中计算对数似然。但是适用于直接观察到的(接近)规则格子上的平稳高斯过程。
- 顺序表示的近似似然函数:通过顺序表示构建近似似然函数,并简化条件集合。相似的方法也适用于计算条件期望(克里金法)。
- 低秩高斯模型上的精确计算:在简化的低秩高斯模型上进行精确计算。
2. 高斯马尔可夫随机场 方法 (GMRFs)
为克服或避免 “大 n n n 问题”, 协方差截断法是将协方差矩阵的部分元素置零以加快计算速度。但是稀疏模式将取决于高斯场的范围。
Banerjee et al. (2004), section A.5.3提出有种类似思想的格子方法,被认为在潜力上优于协方差截断方法。这个方法是将高斯场替换为高斯马尔可夫随机场 (GMRF)见 Rue et al. (2009), section 2.1, and Rue and Held (2005)。
2.1. GMRFs 的定义
定义 (GMRFs) [Rue and Held (2005)]:一个高斯马尔可夫随机场 (GMRF) 是具有马尔可夫性质的高斯随机变量 x = ( x 1 , … , x n ) \mathbf{x}=\left(x_1, \ldots, x_n\right) x=(x1,…,xn):对于某些 i ≠ j i \neq j i=j, x i x_i xi和 x j x_j xj在给定 x − i j \mathbf{x}_{-ij} x−ij的条件下是独立的。
设无向图 G \mathcal{G} G表示 x \mathbf{x} x的条件独立性质;则称 x \mathbf{x} x相对于 G \mathcal{G} G是一个高斯马尔可夫随机场 (GMRF)。也就是说,高斯马尔可夫随机场(GMRF)的完整条件分布 π ( x i ∣ x − i ) , i = 1 , … , n \pi\left(x_i \mid \mathbf{x}_{-i}\right), i=1, \ldots, n π(xi∣x−i),i=1,…,n,仅依赖于每个位置 i i i 的一组图的邻居 ∂ i \partial i ∂i (一致性要求意味着如果 i ∈ ∂ j i \in \partial j i∈∂j ,则 j ∈ ∂ i j \in \partial i j∈∂i)
图 G \mathcal{G} G与精度矩阵 Q \boldsymbol{Q} Q之间的关系:在我们正式定义GMRF之前,先来探讨图 G \mathcal{G} G与正态分布参数(均值和协方差)之间的关系。由于均值 μ \boldsymbol{\mu} μ对 x \boldsymbol{x} x的成对条件独立性没有任何影响,我们可以推断出这部分信息必然仅仅“隐藏”在协方差矩阵 Σ \boldsymbol{\Sigma} Σ中。事实证明,协方差矩阵的逆,即精度矩阵 Q = Σ − 1 \boldsymbol{Q}=\boldsymbol{\Sigma}^{-1} Q=Σ−1,在其中起到了关键作用。(即这些马尔可夫性质可以方便地编码在精度(协方差的逆)矩阵 Q \mathbf{Q} Q中)
定理 2.2 设 x \boldsymbol{x} x是正态分布,均值为 μ \boldsymbol{\mu} μ,精度矩阵 Q > 0 Q>0 Q>0。则对于 i ≠ j i \neq j i=j,有 x i ⊥ x j ∣ x − i j ⟺ Q i j = 0. x_i \perp x_j \mid x_{-i j} \quad \Longleftrightarrow \quad Q_{i j}=0 . xi⊥xj∣x−ij⟺Qij=0..
注释:这是一个美妙且有用的结果。它简单地说明了 Q \boldsymbol{Q} Q的非零模式决定了 G \mathcal{G} G,因此我们可以从 Q \boldsymbol{Q} Q中读出 x i x_i xi和 x j x_j xj是否条件独立。另一方面,对于给定的图 G \mathcal{G} G,我们知道 Q \boldsymbol{Q} Q中的非零项。这可以用来对 Q \boldsymbol{Q} Q进行参数化,同时注意我们还要求 Q > 0 Q>0 Q>0。
定义 2.1 (带图 G = ( V , E ) \mathcal{G}=(\mathcal{V}, \mathcal{E}) G=(V,E) 的GMRFs) 随机向量 x = ( x 1 , … , x n ) T ∈ R n \boldsymbol{x}=\left(x_1, \ldots, x_n\right)^T \in \mathbb{R}^n x=(x1,…,xn)T∈Rn 被称为具有均值 μ \mu μ,精度矩阵 Q > 0 Q>0 Q>0 的带图 G = ( V , E ) \mathcal{G}=(\mathcal{V}, \mathcal{E}) G=(V,E) 的 GMRF,当且仅当其密度形式为
π ( x ) = ( 2 π ) − n / 2 ∣ Q ∣ 1 / 2 exp ( − 1 2 ( x − μ ) T Q ( x − μ ) ) \pi(x)=(2 \pi)^{-n / 2}|Q|^{1 / 2} \exp \left(-\frac{1}{2}(x-\mu)^T \boldsymbol{Q}(x-\mu)\right) π(x)=(2π)−n/2∣Q∣1/2exp(−21(x−μ)TQ(x−μ))
且
Q i j ≠ 0 ⟺ { i , j } ∈ E 或 i ∈ ∂ j ∪ j for all i ≠ j . Q_{i j} \neq 0 \quad \Longleftrightarrow \quad\{i, j\} \in \mathcal{E} \text{ 或 } i \in \partial j \cup j \quad \text { for all } \quad i \neq j \text {. } Qij=0⟺{i,j}∈E 或 i∈∂j∪j for all i=j.
2.2. GMRFs 计算的高效性
在大多数情况下, Q \mathbf{Q} Q的 n 2 n^2 n2个元素中只有 O ( n ) \mathcal{O}(n) O(n)个是非零的,因此 Q \mathbf{Q} Q是稀疏的。
2.2.1. Cholesky分解的高效计算
这使得 Q \mathbf{Q} Q可以快速分解为 L L T \mathbf{L} \mathbf{L}^{\mathrm{T}} LLT,其中 L \mathbf{L} L是(下)Cholesky三角矩阵。由于全局马尔可夫性质, Q \mathbf{Q} Q的稀疏性会传递到 L \mathbf{L} L 中:对于 i < j i<j i<j,如果在 G \mathcal{G} G中 i i i和 j j j被 F ( i , j ) = { i + 1 , … , j − 1 , j + 1 , … , n } F(i, j)=\{i+1, \ldots, j-1, j+1, \ldots, n\} F(i,j)={i+1,…,j−1,j+1,…,n} 隔开,则 L j i = 0 L_{ji}=0 Lji=0。因此,仅计算 L \mathbf{L} L中的非空项。此外,可以重新排列节点以减少 L \mathbf{L} L中的非零项数量。
计算成本:将 Q \mathbf{Q} Q分解为 L L T \mathbf{L L}^{\mathrm{T}} LLT的成本取决于GMRF的维度,例如,一维是 O ( n ) \mathcal{O}(n) O(n),二维是 O ( n 3 / 2 ) \mathcal{O}\left(n^{3 / 2}\right) O(n3/2),三维是 O ( n 2 ) \mathcal{O}\left(n^2\right) O(n2)。
求解涉及 Q \mathbf{Q} Q的方程也利用了Cholesky三角。例如, Q x = b \mathbf{Q x}=\mathbf{b} Qx=b可以通过两步解决。首先解 L v = b \mathbf{L v}=\mathbf{b} Lv=b;然后解 L T x = v \mathbf{L}^{\mathrm{T}} \mathbf{x}=\mathbf{v} LTx=v。如果 z ∼ N ( 0 , I ) \mathbf{z} \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) z∼N(0,I),则 L T x = z \mathbf{L}^{\mathrm{T}} \mathbf{x}=\mathbf{z} LTx=z的解具有精度矩阵 Q \mathbf{Q} Q。这是从GMRF生成随机样本的一般方法。任何 x \mathbf{x} x处的对数密度 log π ( x ) \log {\pi(\mathbf{x})} logπ(x)可以通过使用公式 π ( x ) \pi(x) π(x) 容易计算,因为 log ∣ Q ∣ = 2 Σ i log ( L i i ) \log |\mathbf{Q}|=2 \Sigma_i \log \left(L_{i i}\right) log∣Q∣=2Σilog(Lii)。
2.2.2. Σ i j \Sigma_{i j} Σij的高效计算
回忆一下,解
x
\mathbf{x}
x具有精度矩阵
Q
\mathbf{Q}
Q。我们可以从方程
L
T
x
=
z
\mathbf{L}^{\mathrm{T}} \mathbf{x}=\mathbf{z}
LTx=z开始,其中
z
∼
N
(
0
,
I
)
\mathbf{z} \sim \mathcal{N}(\mathbf{0}, \mathbf{I})
z∼N(0,I)。将此方程详细展开,我们得到
L
i
i
x
i
=
z
i
−
Σ
k
=
i
+
1
n
L
k
i
x
k
L_{i i} x_i=z_i-\Sigma_{k=i+1}^n L_{k i} x_k
Liixi=zi−Σk=i+1nLkixk,对于
i
=
n
,
…
,
1
i=n, \ldots, 1
i=n,…,1。将每一边乘以
x
j
,
j
⩾
i
x_j, j \geqslant i
xj,j⩾i,然后取期望,我们得到
(
2
)
Σ
i
j
=
δ
i
j
2
L
i
i
−
1
L
i
i
∑
k
=
i
+
1
n
L
k
i
Σ
k
j
,
j
⩾
i
,
i
=
n
,
…
,
1
,
(2)\quad \Sigma_{i j}=\frac{\delta_{i j}^2}{L_{i i}}-\frac{1}{L_{i i}} \sum_{k=i+1}^n L_{k i} \Sigma_{k j}, \quad j \geqslant i, \quad i=n, \ldots, 1,
(2)Σij=Liiδij2−Lii1k=i+1∑nLkiΣkj,j⩾i,i=n,…,1,其中
Σ
(
=
Q
−
1
)
\boldsymbol{\Sigma}\left(=\mathbf{Q}^{-1}\right)
Σ(=Q−1)是协方差矩阵,
δ
i
j
=
1
\delta_{i j}=1
δij=1当
i
=
j
i=j
i=j时,
δ
i
j
=
0
\delta_{i j}=0
δij=0否则。因此,让外循环
i
i
i从
n
n
n运行到1,内循环
j
j
j从
n
n
n运行到
i
i
i,可以从表达式(2)计算
Σ
i
j
\Sigma_{i j}
Σij。
如果我们只对边际方差感兴趣,我们只需要计算对于
L
j
i
L_{j i}
Lji(或
L
i
j
L_{i j}
Lij)不为0的
Σ
i
j
\Sigma_{i j}
Σij即可;参见上文。这将空间情况下的计算成本通常减少到
O
n
log
(
n
)
2
\mathcal{O}{n \log (n)^2}
Onlog(n)2有关更多详细信息,请参见Rue和Martino(2007),第2节。
2.2.3. 通过克里金法进行条件处理
当GMRF被定义为具有附加线性约束时,例如
A
x
=
e
\mathbf{A x}=\mathbf{e}
Ax=e对于秩为
k
k
k的
k
×
n
k \times n
k×n矩阵A,使用以下策略:如果
x
\mathbf{x}
x是从无约束的GMRF中抽样的,那么
(
3
)
x
c
=
x
−
Q
−
1
A
T
(
A
Q
−
1
A
T
)
−
1
(
A
x
−
e
)
(3) \quad\mathbf{x}^{\mathrm{c}}=\mathbf{x}-\mathbf{Q}^{-1} \mathbf{A}^{\mathrm{T}}\left(\mathbf{A} \mathbf{Q}^{-1} \mathbf{A}^{\mathrm{T}}\right)^{-1}(\mathbf{A} \mathbf{x}-\mathbf{e})
(3)xc=x−Q−1AT(AQ−1AT)−1(Ax−e)是从受约束的GMRF中抽样的样本。可以使用公式(3)来计算
x
c
\mathbf{x}^{\mathrm{c}}
xc的期望值。此方法通常称为“通过克里金法进行条件处理”;参见Cressie(1993)或Rue(2001)。注意,
Q
−
1
A
T
\mathbf{Q}^{-1} \mathbf{A}^{\mathrm{T}}
Q−1AT是通过求解
k
k
k个线性系统来计算的,每个系统对应
A
T
\mathbf{A}^{\mathrm{T}}
AT的一列。附加
k
k
k个线性约束的成本为
O
(
n
k
2
)
\mathcal{O}\left(n k^2\right)
O(nk2)。在线性约束下的边际方差也可以通过类似的方法计算;参见Rue和Martino(2007),第2节。
2.2.4. 其他
高斯马尔可夫随机场的性质 Q i j ≠ 0 ⇔ i ∈ ∂ j ∪ j Q_{i j} \neq 0 \Leftrightarrow i \in \partial j \cup j Qij=0⇔i∈∂j∪j促进了 计算上的提升,例如:
- 简单完全条件分布有利于MCMC采样:在MCMC采样过程中,为了从目标分布中抽取样本,通常需要计算每个参数的条件分布,并依此更新参数的值。这些条件分布通常被称为完全条件分布(full conditionals),它们是给定其他所有参数时某个参数的边缘分布。而高斯马尔可夫随机场(GMRF)的完全条件分布简单,这在很大程度上解释了近年来 GMRF 的流行。
- 稀疏矩阵的快速数值算法:高斯马尔可夫随机场(GMRF)允许快速的直接数值算法。因为二维 GMRF精度矩阵 Q Q Q 的数值分解可以通过使用稀疏矩阵算法以典型的 O ( n 3 / 2 ) O\left(n^{3 / 2}\right) O(n3/2) 成本完成。
- 贝叶斯推断Rue et al. (2009):GMRF 具有非常好的计算特性,这在贝叶斯推断方法中非常重要。通过与嵌套积分拉普拉斯近似的关联性,这些特性得到了进一步增强,使得对潜在 (latent) 高斯场模型的贝叶斯推断快速且准确。
2.3. GMRFs 存在的难点
尽管GMRF具有非常好的计算特性,但当前基于GMRF的统计模型相对简单,尤其是当应用于区域或县的地区数据。
主要原因有以下几点:
- 目前没有好的方法 参数化高斯马尔可夫随机场 (GMRF) 的精度矩阵,以实现预定义的点间相关性行为并控制边际方差。
- 正定的要求:从矩阵的角度来看,这是因为必须构造一个正定的精度矩阵,以获得其逆矩阵作为正定的协方差矩阵。
因此,适当协方差矩阵的条件被基本上等价的稀疏精度矩阵的条件所取代。
通常会采取简化的方法,例如让 Q i j Q_{i j} Qij 与点 i i i 和 j j j 之间的倒数距离相关;然而,更详细的分析表明,这种方法并不是最佳的,并可能产生意外的效果。
- 仅使用简单邻域,尚不清楚有用的高斯马尔可夫随机场 (GMRF) 模型的类有多大。
这里的复杂问题是全局正定性约束,并且这种约束如何影响完整条件分布的参数化可能并不明显。
2.4. 高斯逼近
我们的方法基于以下形式密度的高斯近似:
(
4
)
π
(
x
)
∝
exp
{
−
1
2
x
T
Q
x
+
∑
i
∈
I
g
i
(
x
i
)
}
(4) \quad \pi(\mathbf{x}) \propto \exp \left\{-\frac{1}{2} \mathbf{x}^{\mathrm{T}} \mathbf{Q} \mathbf{x}+\sum_{i \in \mathcal{I}} g_i\left(x_i\right)\right\}
(4)π(x)∝exp{−21xTQx+i∈I∑gi(xi)}在我们的设定中,
g
i
(
x
i
)
g_i (x_i)
gi(xi)为
log
π
(
y
i
∣
x
i
,
θ
)
\log {\pi(y_i \mid x_i, \boldsymbol{\theta})}
logπ(yi∣xi,θ)。
高斯近似 π ~ G ( x ) \tilde{\pi}_G(\mathbf{x}) π~G(x)是通过匹配模态配置和模态处的曲率获得的。
通过迭代使用牛顿-拉夫森方法计算模态,该方法也称为评分算法及其变体费舍尔评分算法(Fahrmeir and Tutz, 2001)。
设
μ
(
0
)
\boldsymbol{\mu}^{(0)}
μ(0)为初始猜测,并在
μ
i
(
0
)
\mu_i^{(0)}
μi(0)附近对
g
i
(
x
i
)
g_i\left(x_i\right)
gi(xi)进行二阶展开,
(
5
)
g
i
(
x
i
)
≈
g
i
(
μ
i
(
0
)
)
+
b
i
x
i
−
1
2
c
i
x
i
2
(5) \quad g_i\left(x_i\right) \approx g_i\left(\mu_i^{(0)}\right)+b_i x_i-\frac{1}{2} c_i x_i^2
(5)gi(xi)≈gi(μi(0))+bixi−21cixi2其中
b
i
{b_i}
bi和
c
i
{c_i}
ci依赖于
μ
(
0
)
\boldsymbol{\mu}^{(0)}
μ(0)。由此得到高斯近似,其精度矩阵为
Q
+
diag
(
c
)
\mathbf{Q}+\operatorname{diag}(\mathbf{c})
Q+diag(c),模态由方程
(
Q
+
d
i
a
g
(
c
)
)
μ
(
1
)
=
b
(\mathbf{Q}+{diag}(\mathbf{c})) \boldsymbol{\mu}^{(1)}=\mathbf{b}
(Q+diag(c))μ(1)=b的解给出。这个过程重复进行,直到
μ
(
n
)
\boldsymbol{\mu}^{(n)}
μ(n)收敛到一个高斯分布,记其均值为
x
∗
\mathbf{x}^*
x∗,精度矩阵为
Q
∗
=
Q
+
diag
(
c
∗
)
\mathbf{Q}^*=\mathbf{Q}+\operatorname{diag}\left(\mathbf{c}^*\right)
Q∗=Q+diag(c∗)。如果存在线性约束,则每次迭代时使用公式(3)的期望值来校正均值。
由于表达式 (4) 中的非二次项仅是 x i x_i xi的函数,而不是 x i x_i xi和 x j x_j xj的函数,因此高斯近似的精度矩阵为 Q + diag ( c ) \mathbf{Q}+\operatorname{diag}(\mathbf{c}) Q+diag(c)。这在计算上是方便的,因为GMRF的马尔可夫性质得以保留。
2.5. ‘GMRFs 逼近 FM’ 的有效性及缺点
Rue 和 Tjelmeland(2002)在实证上证明,高斯马尔可夫随机场 (GMRF) 可以紧密逼近地统计学中常用的大部分协方差函数。
他们建议将GMRFs作为计算上的替代品,例如用于克里金插值(Hartman 和 Hössjer,2008)。
他们的方法存在几个缺点:
- 将高斯马尔可夫随机场 (GMRFs) 拟合到高斯场 (GFs) 仅限于规则格子(或环面)。
- 拟合本身需要预先计算一组离散的参数值(如平滑度和范围),使用耗时的数值优化。
尽管有这些概念验证的结果,几位研究人员在这一想法上进行了后续研究,但在方法论上并未取得显著进展。
不过,该方法已显示出在时空模型中也很有用。
3. 方法总结
这种处理大 n n n 问题的建模或计算策略看起来是一个比较好的方法,具体操作是:
- ( a ) (a) (a) 用一组在位置 { s i } \{s_i\} {si} 上的高斯场(GF)进行建模,构建具有协方差矩阵 Σ Σ Σ 的离散化高斯场。
- ( b ) (b) (b) 找到一个具有本地邻域和精度矩阵 Q Q Q 的高斯马尔可夫随机场(GMRF)以最佳方式来表示 (represent) 高斯场 GF,即 Q − 1 Q^{-1} Q−1 在某种范数下接近 Σ Σ Σ。(我们故意使用“表示 (represent)”而不是“近似”。)
- ( c ) (c) (c) 使用 高斯马尔可夫随机场 (GMRF) 表示 (representation) 进行计算,采用适用于稀疏矩阵的数值方法。
这种方法依赖于以下几个假设:
- 要求 高斯场 (GF) 必须是如下这种类型:存在一个具有本地邻域的高斯马尔可夫随机场 (GMRF)能够足够准确地表示它,以维持参数和结果的解释。
- 必须能够从 高斯场 (GF)中计算出如下这种高斯马尔可夫随机场 (GMRF)表示:在任意位置的集合上速度足够快,以便与直接处理 GF 相比实现显著加速。