论文笔记：Representation Learning with Contrastive Predictive Coding

本文链接：https://blog.csdn.net/Wangpeiyi9979/article/details/109571673

本文探讨了无监督学习中互信息的重要性及应用，介绍了如何通过最大化互信息来获得更好的特征表示，并提出了对比预测编码(CPC)这一架构，用于语音信号的表示学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对于无监督学习来说，互信息是一个非常重要的指标，它衡量了两个随机变量之间的相关性。在无监督学习中，利用对互信息的优化，通常我们能够得到更加好的特征表示。

要做什么

特征抽取是无监督学习的重要部分，旨在对大量的无标注数据样本进行训练，最后能够得到一个编码器E，将每一个样本 $x$ 编码为一个好的向量表示 $z$ ，那么如何衡量这个表示是否好呢？自编码器(AutoEncoder)告诉我们, 希望编码出的向量能够重构原始样本。因此我们在加入一个解码器D, 将重构的 $x^{'}$ 与 $x$ 做Mse loss。
在这里插入图片描述
但是这样的想法真的好吗？答案是不见得，比如下面的例子：

尽管我们已经见过很多次钞票长什么样子，但我们很少能一模一样的画出钞票；虽然我们画不出栩栩如生的钞票，但我们依旧可以轻易地辨别出钞票。因此钞票在我们大脑中的表示，并不需要我们能够生成完整的钞票，而只需要我们能够进行辨别。基于此，我们可以认为，在人的认知学习中：一个样本的好的表示应该是能够从大量数据中辨别出该样本，而不是能够直接生成改样本。

互信息的优化

那别如何去学习到一个足够辨别该样本的表示呢？没错，就是最大化互信息。这里先引入一些记号，令 $X$ 表示所有样本集合， $x$ 表示其中一个样本。 $Z$ 表示所有编码向量的集合， $z$ 表示其中一个编码向量。 $X$ 与 $Z$ 的互信息表示为：
$I(X,Z)=\sum_{x \in X, z \in Z}p(x, z) log \frac{p(x|z)}{p(x)}=H(X) - H(X|Z)$
最大化原始数据 $X$ 和其表示 $Z$ 的互信息 $I (X, Z)$ , 如果 $X$ 是固定的，比如图谱的像素，那么就等价与最小化条件熵 $H (X ∣ Z)$ , 也就是说，条件熵越小，也就表示，给定一个表示 $z$ , 其对应的样本 $x$ 的不确定性越低，也就是说， $z$ 能够很好地从大量样本 $X$ 中辨别 $x$ 。

对比预测编码(CPC)

本文提出地对比预测编码(CPC)架构如下：
在这里插入图片描述
以语音为例，首先通过一个编码器 $g_{enc}$ 将语音信号 $x_t$ 编码为潜在表示 $z_t$ , 然后通过一个 $g_{ar}$ 总结所有 $z_{\le t}$ 得到 $c_t$ ( $c_t$ 融合了 $t$ 时间前的所有信息), 然后通过一个 $W_k$ 映射为 $W_kc_t$ , 最终我们希望能够通过 $W_kc_t$ 识别出 $x_{t+k}$ 。因为 $W_k$ 是对时间步的映射，被所有 $C$ 共享，因此如果能够从 $W_kc_t$ 中识别 $x_{t+k}$ ，那么便说明 $c_t$ 是一个好的表示。得到了每一个 $x_t$ 的编码表示 $c_t$ 后，如果需要得到样本的表示，对他们进行一个pooling就可以了。

结合上文对互信息最大化的讲解，那么CPC的目标就变成了最大化 $X$ 和 $C$ 的互信息 $I (X, C)$ :
$I(X,C)=\sum_{x \in X, z \in C}p(x, c) log \frac{p(x|c)}{p(x)}$
也就是原文中的式(1)。

对互信息的估计

文章的初心是希望最大化互信息，但是在实现时，是通过优化InfoNCE对互信息的下界进行优化，从而间接最大化互信息。

定义InfoNCE为：
在这里插入图片描述
其中 $X$ 是所有可能的采样集合，含有 $N$ 个样本 ${x_1, x_2, ..., x_N\}$ , 其中含有一个对应 $c_t$ 的正样本 $x_{t+k}$ 和 $N - 1$ 个负样本。
其中 $f_k(x_{t+k}, c_t)=exp(z_{t+k}^TW_kc_t)$ ，建模了Density Ratio, 即： $f_k(x_{t+k}, c_t) \propto \frac{p(x_{t+k} | c_t)}{p(x_{t+k})}$ 。
关于 $f_k(x_{t+k}, c_t)$ 为什么要用一个指数簇函数表示，我们待会儿再讲，这里先证明为什么 $f_k(x_{t+k}, c_t)$ 建模了Density Ratio。

$\mathcal{L}_N$ 其实就是代表了交叉熵损失， $\frac{f_k}{\sum_Xf_k}$ 表示模型的输出，它其实就是 $p(d=i | X, c_t)$ , 这里 $[d = i]$ 表示 $x_i$ 是正例，即 $i = t + k$ 。而：
在这里插入图片描述
因此: $f_k(x_{t+k}, c_t) = t \frac{p(x_{t+k} | c_t)}{p(x_{t+k})}\propto \frac{p(x_{t+k} | c_t)}{p(x_{t+k})}$ 。

那为什么 $f_k(x_{t+k}, c_t)$ 为什么要用一个指数簇函数表示呢？对 $\frac{p(x_{t+k} | c_t)}{p(x_{t+k})}=exp(z_{t+k}^TW_kc_t)$ 两边取 $l o g$ , 有: $logt\frac{p(x_{t+k} | c_t)}{p(x_{t+k})} = z_{t+k}^TW_kc_t$ , $t$ 是一个放缩倍数，因此加入了 $e x p$ 后， $z_{t+k}^TW_kc_t$ 其实就是拟合的 $x_{t+k}$ 和 $c_t$ 的点互信息。