Determinantal point process 入门

最新推荐文章于 2024-09-10 08:13:27 发布

本帅哥屏蔽了凡人

最新推荐文章于 2024-09-10 08:13:27 发布

阅读量1.2w

点赞数 23

分类专栏：机器学习

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/qq_23947237/article/details/90698325

版权

机器学习专栏收录该内容

27 篇文章

订阅专栏

Determinantal point process 入门

1. 什么是“行列式点过程”

在机器学习（ML）中，子集选择问题的目标是从 ground set 中选择具有高质量但多样化的 items 的子集。这种高质量和多样性的平衡在 ML 问题中经常通过使用行列式点过程（determinantal point process，DPP）来保持，其中 DPP 赋予子集上的分布能够使得选择两个相似项的概率是（反）相关的。

虽然 DPPs 在随机几何（Stochastic Geometry，SG）中已被广泛地用于建模点间斥力（inter-point repulsion）问题，但它们对 ML 应用尤其有益，因为它们的分布参数可以从训练集中有效地学习到。

DPP 包括两个概念

行列式过程
点过程

行列式点过程 $\mathcal P$ 是在一个离散的有限基本点集 $\mathcal Y=\{1,2,\cdots, N\}$ 的幂集 $2^{\mathcal Y}$ （所有子集，包括空集和全集，构成的集合）上定义的概率分布。

幂集（Power Set）：就是原集合中所有的子集（包括全集和空集）构成的集族。设 $\mathcal X$ 是一个有限集， $|\mathcal X| = k$ ，则 $\mathcal X$ 的幂集的势为 $2^k$ 。

设 $\subseteq \mathcal Y$ 是一个固定的子集， $Y$ 是根据 DPP 从 $\mathcal Y$ 中随机生成的一些点构成的一个子集（ $\sim \mathcal P$ ），则
$\subseteq Y) =\det(K_A)$

其中 $\vert \mathcal Y \vert=N$ ， $K$ 是 similarity matrix，是 $\times N$ 的实对称半正定方阵。 $K_A$ 是 $K$ 的与 $A$ 中元素在 $\mathcal Y$ 中的标号相对应的元素构成子方阵。

一般来说， $K$ 不一定需要是对称的。然而，为了简单起见，我们继续使用这个假设，而且这不是一个有影响的限制。

对于任意 $\subseteq \mathcal Y$ ， $\subseteq Y) =\det(K_A) \in [0,1]$ ，因此 $K$ 的所有特征值与主子式都满足处于 $[0, 1]$ ，由此可知 $K$ 半正定（ $\mathbf 0 \preceq K \preceq \mathbf I$ ）。

主子式：任选 $i$ 行 $i$ 列的子方阵。注意区别于顺序主子式。

从上图也可以看出抽象的表示， $K$ 也被称为边缘核，因它确定了 DPP 的边缘分布：
$\subseteq Y) =\sum_{Y':Y' \supseteq A} P(Y=Y')$
当 $A=\{i\}$ ，有 $\in Y)=K_{i,i}$ 。也就是说， $K$ 的对角线给出了单个元素包含于 $Y$ （ $Y$ 中包含有单个元素的子集）的边缘概率。

且我们定义 $\det(K_{\varnothing}) =1$ ，即任意一个 DPP 生成的随机过程选中的点构成的集合都包含空集。

如果 $A=\{i,j\}$ ，那么有
$\begin{aligned} P(A \subseteq Y)& = \begin{vmatrix} K_{i,i} & K_{i,j} \\ K_{j,i} & K_{j,j} \end{vmatrix} = K_{i,i} K_{j,j} - K_{i,j} K_{j,i} \\ &=P(i \in Y)P(j \in Y)-K_{i,j}^2 \end{aligned}$

因此，非对角元素（对称导致了 $K_{j,i} = K_{i,j}$ ）表示成对元素之间的（反）相关度量： $K_{i,j}$ 值越大，表示 $i$ 和 $j$ 越不可能同时出现。如果我们把边缘核的项看作是 $Y$ 中成对元素之间相似性的度量，那么高度相似的元素不太可能同时出现。

相似性度量如下：

注意 $K_{i,j}$ 的值与点 $i$ 和 $j$ 之间的距离成反比。这就意味着距离越近的点越不容易成对出现。所以 DPP 采样的点比独立采样覆盖的范围更好。
例如：

例如当 $K_{i,j} = \sqrt{K_{i,i} K_{j,j}}$ ，则有 $P(\{i,j\} \subseteq Y)=0$ 表示 ${i,j\}$ 几乎肯定不会同时出现。相反，对角元素表示没有与其他元素的相关性，因此元素独立出现。
以上就是一些大致的 DPP 概念。结合上面的图，可以理解论文中反复强调的一句话：Correlations are always negative in DPPs!

1.1 conditioning

条件概率的推导需要用到矩阵的 Schur Complement（舒尔补）参考链接；参考链接；参考链接：
若矩阵 $\Sigma$ 分块如下
$\Sigma = \left[ \begin{array}{cc} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{array} \right]$
则存在以下关系
$\begin{aligned} \begin{vmatrix} \Sigma \end{vmatrix} &=\begin{vmatrix}\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\end{vmatrix} \begin{vmatrix}\Sigma_{22}\end{vmatrix} \\ \begin{vmatrix} \Sigma \end{vmatrix} &=\begin{vmatrix}\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}\end{vmatrix} \begin{vmatrix}\Sigma_{11}\end{vmatrix} \end{aligned}$
这里我们命名
$\begin{aligned} \begin{vmatrix} \Sigma/\Sigma_{22} \end{vmatrix} &=\begin{vmatrix}\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\end{vmatrix} \\ \begin{vmatrix} \Sigma/\Sigma_{11} \end{vmatrix} &=\begin{vmatrix}\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}\end{vmatrix} \\ S_{22} &= \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\\ S_{11}&=\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} \end{aligned}$
这样，我们就称作 $S_{11}$ 为矩阵 $\Sigma$ 关于 $\Sigma_{11}$ 的舒尔补。

$\begin{aligned} P(B \subseteq Y \vert A \subseteq Y ) &= \frac{P(A\cup B \subseteq Y )}{P( A \subseteq Y )} \\ &=\frac{\det(K_{A \cup B})}{\det(K_A)}= \frac{\begin{vmatrix} K_{B}-K_{BA} K_{A}^{-1} K_{AB}\end{vmatrix} \begin{vmatrix} K_{A}\end{vmatrix} }{\begin{vmatrix} K_{A}\end{vmatrix} } \\ &=\det(K_{B}-K_{BA} K_{A}^{-1} K_{AB}) \end{aligned}$

2. L-ensembles

然而为了对真实数据建模，DPPs 的构造不通过边缘核函数 $K$ ，而通过 L-ensembles 来定义。L-ensembles 通过一个正的、半定矩阵 $L$ 来定义 DPP（说白了，其实就是把 $L$ 替换掉 $K$ ）。

$P_L(Y) \propto \det(L_Y)$

然而上面的公式只能表示一种比例关系，需要进一步归一化才能表征概率。那么怎么归一化？
首先计算
$\sum_{Y \subseteq \mathcal Y} \det (L_Y)$
在这里，借助行列式加法性质
$\begin{aligned} \begin{vmatrix} a_{11}+1 & a_{12} \\ a_{21} & a_{22} \end{vmatrix} = \begin{vmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{vmatrix} + \begin{vmatrix} 1 & a_{12} \\ 0 & a_{22} \end{vmatrix} \end{aligned}$

找到一种推理规律

$\begin{aligned} \det(L+\mathbf I) &= \begin{vmatrix} L_{11}+1 & L_{12} \\ L_{21} & L_{22}+1 \end{vmatrix} = \begin{vmatrix} L_{11} & L_{12} \\ L_{21} & L_{22}+1 \end{vmatrix} + \begin{vmatrix} 1 & 0\\ L_{21} & L_{22}+1 \end{vmatrix} \\ &=\begin{vmatrix} L_{11} & L_{12} \\ L_{21} & L_{22} \end{vmatrix} + \begin{vmatrix} L_{11} & L_{12} \\ 0 & 1 \end{vmatrix}+ \begin{vmatrix} 1 & 0\\ L_{21} & L_{22} \end{vmatrix} + \begin{vmatrix} 1 & 0 \\ 0 & 1 \end{vmatrix}\\ &= \det(\{1,2\})+ \det(\{1\})+ \det(\{2\})+ \det(\varnothing) \end{aligned}$
上面两个元素可以推广到任意 $N$ 个元素的情形。所以，得到
$\sum_{Y \subseteq \mathcal Y} \det (L_Y) = \det(L+\mathbf I)$
最终可以得到归一化的概率形式：

$P_L(\mathbf Y=Y) = \frac{\det(L_Y)}{\sum_{Y \subseteq \mathcal Y} \det (L_Y) }= \frac{\det(L_Y)}{ \det(L+\mathbf I) }$
回顾边缘核确定的 DPP 的边缘分布：
$\begin{aligned} P(A \subseteq \mathbf Y) &=\sum_{Y' \supseteq A} P(\mathbf Y=Y')=\det(K_A) \\ &= \sum_{Y' \supseteq A} \frac{\det(L_{Y'})}{ \det(L+\mathbf I) } = \frac{1}{ \det(L+\mathbf I) } \sum_{Y' \supseteq A} \det(L_{Y'}) \end{aligned}$

从上面的行列式拆分规律可知
$\begin{aligned} \sum_{Y' \supseteq A} \det(L_{Y'}) = \det(L+\mathbf I_{\bar A}) \end{aligned}$

其中 $\mathbf I_{\bar A}$ 指的是：如果集合 $A$ 包含索引 $i$ ，则 $[\mathbf I_{\bar A}]_{ii}=0$ ，而对于 $\in \bar A$ ，有 $[\mathbf I_{\bar A}]_{ii}=1$ 。所以这里的 $\mathbf I_{\bar A}$ 不是单位阵。举例说明：
$\begin{aligned} \det(L+\mathbf I) &=\begin{vmatrix} L_{11} & L_{12} \\ L_{21} & L_{22} \end{vmatrix} + \begin{vmatrix} L_{11} & L_{12} \\ 0 & 1 \end{vmatrix}+ \begin{vmatrix} 1 & 0\\ L_{21} & L_{22} \end{vmatrix} + \begin{vmatrix} 1 & 0 \\ 0 & 1 \end{vmatrix}\\ &= \det(\{1,2\})+ \det(\{1\})+ \det(\{2\})+ \det(\varnothing) \\ if \quad A&=\{1\} \\ \sum_{Y' \supseteq A} \det(L_{Y'}) &= \det(\{1,2\})+ \det(\{1\}) \\ &=\begin{vmatrix} L_{11} & L_{12} \\ L_{21} & L_{22} \end{vmatrix} + \begin{vmatrix} L_{11} & L_{12} \\ 0 & 1 \end{vmatrix} =\begin{vmatrix} L_{11} & L_{12} \\ L_{21} & L_{22}+1 \end{vmatrix} \\ &=\det \left( \begin{bmatrix} L_{11} & L_{12} \\ L_{21} & L_{22} \end{bmatrix} + \begin{bmatrix} 0 & 0\\ 0 & 1 \end{bmatrix} \right) \end{aligned}$

所以推导得到：
$\begin{aligned} P(A \subseteq \mathbf Y) &=\sum_{Y' \supseteq A} P(\mathbf Y=Y')=\det(K_A) \\ &= \sum_{Y' \supseteq A} \frac{\det(L_{Y'})}{ \det(L+\mathbf I) } = \frac{1}{ \det(L+\mathbf I) } \sum_{Y' \supseteq A} \det(L_{Y'}) \\ &=\frac{\det(L+\mathbf I_{\bar A})}{ \det(L+\mathbf I) } =\det \bigg\{ (L+\mathbf I_{\bar A}) (L+\mathbf I)^{-1} \bigg\} \end{aligned}$
当 $A$ 等价于 $\mathcal Y$ 的全集 $\{1,2,\cdots, N\}$ 时，则有
$\det(K)=\det \bigg\{ (L+\mathbf 0) (L+\mathbf I)^{-1} \bigg\}$
因此得到以下推导：

$\begin{aligned} K&=L(L+\mathbf I)^{-1} \\ &=(L+\mathbf I -\mathbf I)(L+\mathbf I)^{-1} \\ &=\mathbf I - (L+\mathbf I)^{-1} \\ \mathbf I -K &= (L+\mathbf I)^{-1} \\ (L+\mathbf I) (\mathbf I -K) &= \mathbf I \\ L(\mathbf I -K) +(\mathbf I -K) &=\mathbf I \\ L(\mathbf I -K) &= K \\ L&=K(\mathbf I -K) ^{-1} \end{aligned}$

整理得
$\boxed{ \begin{aligned} K&=L(L+\mathbf I)^{-1}=\mathbf I - (L+\mathbf I)^{-1} \\ L&=K(\mathbf I -K) ^{-1} \end{aligned} }$

在这个基础上，如果存在特征值分解
$L=\sum_n \lambda_n \mathbf v_n \mathbf v_n^{T}$

则可得到
$K=\sum_n \frac{\lambda_n}{\lambda_n+1} \mathbf v_n \mathbf v_n^{T}$

里面用到了考研常考的知识点：
如果 $A$ 是对称阵，则必存在正交阵 $P$ 使得
$P^{-1} A P = P^{T} A P = \Lambda$
因此可知
$\begin{aligned} L &= V\Lambda V^{-1} \\ K & =L(L+\mathbf I)^{-1} \\ &=V\Lambda V^{-1}(V\Lambda V^{-1}+V V^{-1})^{-1} \\ &=V\Lambda V^{-1} V(\Lambda+\mathbf I)^{-1} V^{-1} \\ &=V \{\Lambda (\Lambda+\mathbf I)^{-1} \} V^{-1} \end{aligned}$

3. Elementary DPPs

定义：如果 $K$ 的每个特征值 $\lambda$ 都在 ${0,1\}$ 中，那么 DPPs 就是 elementary 的。

定义 $\{\mathbf v_n\}_{n \in V}$ 是一组标准正交向量基。具有以下特征值分解的 $K$ （有些特征值为 1，有些特征值为 0）：
$K^V=\sum_{ n \in V} \mathbf v_n \mathbf v_n^{T}$
我们将具备以上 $K^V$ 的 DPP 记为 $\mathcal P^V$ 。一般 elementary DPPs 不是 L-ensembles。如果 $Y$ 是服从 elementary DPPs $\mathcal P^V$ ，那么集合的 cardinality 记作 $\vert Y \vert$ 。接下来，我们证明 elementary DPPs 具有固定的 cardinality。

首先有以下关系：
$\begin{aligned} \mathbb E(\vert Y \vert) &=\sum_n \mathbb I(i\in Y)= \sum_n K^V_{nn} \\ &=\mathrm{tr}(K^V) =\sum_{ n \in V} \Vert \mathbf v_n \Vert^2 =\vert V \vert \end{aligned}$
结合 $\text{rank}(K^V)=\vert V \vert \Longrightarrow P(\vert Y \vert>\vert V \vert)=0$ ，因此可知 $P(\vert Y \vert=\vert V \vert)=1$ 。

3.1 Sampling lemma

If $P_L$ is a DPP with eigendecomposition of $L$ given by $L=\sum_n \lambda_n \mathbf v_n \mathbf v_n^{T}$ . Then $P_L$ is a mixture of elementary DPPs:

mix

4. 偏好性-相似性分解

在大多数实际情况下，我们希望 diversity 与 $\mathcal Y$ 中对 different items 的一些基本偏好相平衡。因此对 DPP 进行分解。这里称为 quality-diversity decomposition（偏好性-相似性分解）。
在这里 DPP kernel $L$ 可以写成 Gramian 矩阵（Gram 矩阵；参考）的形式：
$L=B^T B\\ B_i=q_i \phi_i$

$q_i \in \mathbb R^{+}$ 表示 quality，用以作为衡量 item $i$ 的 “goodness” 程度。
$\phi_i \in \mathbb R^{D}$ 表示 diversity feature vector。且 $\Vert \phi_i \Vert^2=1$ 。虽然 $D = N$ 可以分解任意的 DPP，但由于在实际中我们可能希望使用高维特征向量，所以 $D$ 是任意的。
$\in \mathbb R^{D \times N}$
$\in \mathbb R^{N \times N}$

$L_{i,j}=q_i \phi_i^T \phi_j q_j =q_i S_{i,j} q_j$

$\phi_i^T \phi_i = S_{i,i} =1$
$L_{i,i}=q_i \phi_i^T \phi_i q_i =q_i S_{i,i} q_i=q_i^2$

$S_{i,j}=\frac{q_i \phi_i^T \phi_j q_j }{q_i q_j }= \frac{L_{i,j} }{\sqrt{L_{i,i} L_{j,j}} } \in[-1,1]$
由于 $\Vert \phi_i \Vert^2=1$ ，因此内积 $\phi_i^T \phi_j$ 表示两个向量的夹角余弦。
bal

可以直接推出
$P_L(Y) \propto \underbrace{\det(S_Y)}_{\rm diversity } \underbrace{\prod_{i \in Y} q_i^2}_{\rm quality}$

4.1 对偶表示

大多数 DPP 算法需要通过 inversion、eigendecomposition 等方法对 $L$ （ $\times N$ 矩阵）进行处理。然而，当 $N$ 很大时，计算效率很低。因此，我们可以通过以下对偶的表示：
$C=B B^T$
在这里 $C$ 是 $\times D$ 矩阵。

$C$ 和 $L$ 有相同的非零特征值。
$C$ 和 $L$ 的特征向量线性相关。

命题：
$C$ 存在以下特征值分解
$C=\sum_{n=1}^{D} \lambda_n \hat\mathbf v_n \hat\mathbf v_n^{T}$
当且仅当 $L$ 存在以下特征值分解
$\begin{aligned} L&=B^TB=B^T\left(\sum_{n=1}^{D} \hat\mathbf v_n \hat\mathbf v_n^{T}\right)B \\ &= \sum_{n=1}^{D} \lambda_n \left[\frac{1}{\sqrt{ \lambda_n}} B^T\hat\mathbf v_n \right] \left[\frac{1}{\sqrt{ \lambda_n}} \hat\mathbf v_n^{T} B\right] \\ &= \sum_{n=1}^{D} \lambda_n \left[\frac{1}{\sqrt{ \lambda_n}} B^T\hat\mathbf v_n \right] \left[\frac{1}{\sqrt{ \lambda_n}} B^T\hat\mathbf v_n\right]^T \end{aligned}$

当 $D$ 也特别大时，采用投影到低维（ $\ll D$ ）空间：

project
Random projections are known to approximately preserve distances [Johnson and Lindenstrauss, 1984].

5. Conditional-DPP

在很多实际问题中，固定的 ground set $\mathcal Y$ 是不够用的。例如在 document summarization problems 中。

解决方法是找到一种取决于输入变量 $X$ 的 $\mathcal Y(X)$ 。因此可以得到定义：

一种 Conditional-DPP $\mathcal P(\mathbf Y=Y \vert X)$ 是一种在每一种子集 $\subseteq \mathcal Y(X)$ 上的分布
$\mathcal P(\mathbf Y=Y \vert X) \propto \det\Big(L_Y(X)\Big)$

其中 $L (X)$ 是取决于 $X$ 的半正定核。利用 quality-diversity decomposition：
$L_{i,j}(X)=q_i(X) \phi_i^T(X) \phi_j(X) q_j (X)=q_i (X)S_{i,j}(X) q_j(X)$

在这里 Supervised learning 可以用来确定联系 $X$ 与 $q_i$ 和 $\phi_i$ 的隐函数。

6. k-DPP

如果我们只需要 $k$ 个 diverse items 呢?

一个最简单的思路就是将 DPP 调整到集合 cardinality $k$ ：
$\mathcal P^k_L( Y ) = \frac{\det(L_Y)}{\sum_{\vert Y'\vert =k} \det (L_{Y'}) }$

引入 $k$ -th elementary symmetric polynomial：
$e_k(\lambda_1, \lambda_2, \cdots, \lambda_N)=\sum_{ { J \subseteq \{1,\cdots,N \} \atop \vert J \vert =k } } \prod_{n\in J} \lambda_n$

举例说明：
$\begin{aligned} e_1(\lambda_1, \lambda_2, \lambda_3) &= \lambda_1+\lambda_2+\lambda_3 \\ e_2(\lambda_1, \lambda_2, \lambda_3) &= \lambda_1\lambda_2+\lambda_1 \lambda_2+ \lambda_2 \lambda_3 \\ e_2(\lambda_1, \lambda_2, \lambda_3) &= \lambda_1\lambda_2 \lambda_3 \end{aligned}$
因此归一化的分母为
$\sum_{\vert Y'\vert =k} \det (L_{Y'}) =e_k(\lambda_1, \lambda_2, \cdots, \lambda_N)$