对比预测编码

最新推荐文章于 2024-07-23 11:03:10 发布

Alphapeople

最新推荐文章于 2024-07-23 11:03:10 发布

阅读量3k

点赞数

分类专栏：深度学习人工智能计算机视觉文章标签：对比预测编码

人工智能同时被 3 个专栏收录

130 篇文章 8 订阅

订阅专栏

深度学习

122 篇文章 4 订阅

订阅专栏

计算机视觉

107 篇文章 5 订阅

订阅专栏

改进表征学习需要不那么专门用于解决单一监督任务的特性。例如，当预先训练一个模型来进行图像分类时，诱导特征相当好地转移到其他图像分类领域，但也缺乏某些信息，如颜色或计数能力，这些信息与分类无关，但与图像标题[4]相关。类似地，用于转录人类语音的特征可能不适合于说话人的识别或音乐类型的预测。因此，无监督学习是实现鲁棒和通用表征学习的重要垫脚石。

尽管它的重要性，无监督学习还没有看到类似监督学习的突破：从原始观察的高层次表示建模仍然是难以捉摸的。此外，并不总是清楚什么是理想的表示，如果不需要对某一特定数据模式进行额外的监督或专门化，就有可能学习这种表示。

无监督学习最常见的策略之一是预测未来、缺失或上下文信息。这种预测编码的思想[5，6]是数据压缩信号处理中最古老的技术之一。在神经科学中，预测编码理论表明大脑预测不同抽象层次的观察[7，8]。最近在无监督学习方面的工作已经成功地利用这些思想通过预测相邻的单词来学习单词表示[9]。对于图像，从灰度或图像斑块的相对位置预测颜色也被证明是有用的[10，11]。我们假设这些方法是有成效的，部分原因是我们预测相关值的上下文通常有条件地依赖于相同的共享的高级潜在信息。通过将此作为一个预测问题，我们会自动推断出这些感兴趣的特征来表示学习。

首先，我们将高维数据压缩到一个更紧凑的潜在嵌入空间中，条件预测更容易建模。其次，我们在这个潜在空间中使用了强大的自回归模型来预测未来的许多步骤。最后，我们依赖于噪声对比估计[12]的损失函数，以类似的方式，用于学习自然语言模型中的词嵌入，允许整个模型进行端到端的训练。我们将结果模型，对比预测编码(CPC)应用于广泛不同的数据模式、图像、语音、自然语言和强化学习，并表明相同的机制在这些领域学习有趣的高级信息，优于其他方法。

2对比预测编码

我们从激励和给出我们的方法背后的直觉开始这一节。接下来，我们介绍了对比预测编码(CPC)的体系结构。在此基础上，我们解释了基于噪声对比估计的损失函数。最后，对对比预测编码的相关工作进行了探讨。

2.1动机和直觉

我们模型背后的主要直觉是学习编码(高维)信号不同部分之间的基本共享信息的表示。同时，它丢弃了低水平的信息和噪音，这是更本地的。在时间序列和高维建模中，采用下一步预测的方法利用信号的局部平滑性。当未来进一步预测时，共享信息的数量会大大降低，模型需要推断出更多的全局结构。这些跨越许多时间步骤的“慢特征”通常更有趣(例如，语音和语调，图像中的物体，或书中的故事线)。

预测高维数据的挑战之一是，单峰损失(如均方误差和交叉熵)不是很有用，通常需要强大的条件生成模型来重建数据中的每一个细节。但是，这些模型在计算上很紧张，在模拟数据x中的复杂关系时浪费了能力，常常忽略上下文C。例如，图像可能包含数千位信息，而高级潜在变量(如类标签)包含的信息要少得多(1024个类别的10位)。这表明，直接建模p(x\c)对于提取x和c之间的共享信息可能不是最优的，在预测未来信息时，我们将目标x(未来)和上下文c(现在)编码成一个紧凑的分布式矢量表示(通过非线性学习映射)，以最大限度地保留原始信号x和c的互信息。

通过最大限度地利用编码表示之间的相互信息(以输入信号之间的MI为界)，我们提取了输入共有的潜在变量。

2.2对比预测编码

图1显示了对比预测编码模型的体系结构。首先,非线性编码器将观测xt的输入序列映射到潜像的序列, 具有较低的时间分辨率。接下来，一个自回归模型总结了潜在空间中的所有，并生成了上下文潜在表示。

正如上一节所指出的那样，我们不会直接用生成模型来预测的未来观测。相反，我们建立了一个密度比模型，它保留和之间的相互信息(等式1)如下(详见下一小节)：

其中∝代表“成比例的”(即，直到一个乘法常数)。请注意，密度比f可以是非规范化的(不必集成到1)。尽管这里可以使用任何正数实数，但我们使用的是一个简单的对数双线性模型：

在我们的实验中，用线性变换对每一步K进行不同的预测，也可以采用非线性网络或递归神经网络进行预测。

通过使用密度比和用编码器推断的方法，使模型从高维分布模型中解脱出来。虽然我们不能直接评估p(X)或p(x|c)，但我们可以使用这些分布的样本，允许我们使用噪声对比估计[12，14，15]和重要性抽样[16]等技术，这些技术是基于将目标值与随机抽样的负值进行比较的。

在所提出的模型中，ZT和ct都可以作为下游任务的表示。如果来自过去的额外上下文有用，则可以使用自回归模型输出ct。其中一个例子是语音识别，其中zt的接收字段可能不包含足够的信息来捕获语音内容。在其他情况下，如果不需要额外的上下文，则ZT可能会更好。如果下游任务需要整个序列的一种表示，例如在图像分类中，则可以将来自zt或ct的表示集中在所有位置上。

最后，请注意，任何类型的编码器和自回归模型都可以在所提出的框架中使用。为了简单起见，我们选择了标准体系结构，例如带RESNET块的跨栏卷积层作为编码器，而grus[17]用于自回归模型。最近在自回归模型方面的进展，如蒙面卷积结构[18，19]或自我注意网络[20]，可能有助于进一步提高结果。

2.3意外损失和相互信息估计

编码器和自回归模型都被训练成联合优化一个基于NCE的损失，我们称之为INFOSE。给出一组随机样本，其中一个样本来自正例，n−1个阴性样本来自“提案”分布中心，我们优化如下：

优化这一损失将导致估计方程2中的密度比，如下所示

方程4中的损失是正确分类正样本的分类交叉熵，是模型的预测。让我们把这个损失的最优概率写成，用[d=i]表示样本xi是‘正’样本。样本XI来自条件分布而不是建议分布的概率可导出如下：

我们可以看到，方程4中的最优值与成正比，这与负样本数n−1的选择无关。

虽然培训不需要，但我们可以评估变量ct和xt+k之间的相互信息，如下所示：

当n变大时，它会变得更紧。还注意到，最小的初始损失在最大限度上的相互信息。更多细节见附录。

2.4相关工作

CPC是将预测未来观测(预测编码)与概率对比损失(等式4)结合起来的一种新方法。这使得我们能够提取慢特征，从而最大限度地利用长期观测的相互信息。对比损失和预测编码以前被单独以不同的方式使用，我们现在将讨论这一点。对比损失函数在过去曾被许多作者使用过。例如，[21，22，23]提出的技术是基于三重态损失，采用最大边际法将正数和负数分开。最近的工作包括时间对比网络[24]，它建议将来自同一场景的多个视角的嵌入之间的距离最小化，同时最大化从不同时间步骤提取的嵌入之间的距离。在时间对比学习[25]中，对比损失被用来预测多变量时间序列的分段id，作为提取特征和执行非线性ICA的一种方法。在从相关观测中确定预测任务作为提取有用表示的一种方法方面也有工作和进展，其中许多已经应用于语言。在Word2vec[9]中，使用对比损失来预测相邻单词。跳过思想向量[26]和字节mlstm[27]是超越词预测的递归神经网络，并使用最大似然的观测序列。在计算机视觉[28]中，在跟踪视频块上使用三重态丢失，这样来自同一对象的不同时间步骤的补丁比随机块更相似。[11，29]建议预测图像中斑块的相对位置，并从灰度图像中预测[10]颜色值。

4结论

本文提出了对比预测编码(CPC)，这是一种提取紧凑的潜在表示法的框架，用于对未来观测的预测进行编码。CPC将自回归建模和噪声对比估计与预测编码的直觉相结合，以无监督的方式学习抽象表示。我们测试了这些表现在广泛的领域：音频，图像，自然语言和强化学习，并取得了强大或最先进的表现时，作为独立的特点。训练模型的简单性和低计算要求，加上与主要损失一起使用的挑战强化学习领域的令人鼓舞的结果，是有用的无监督学习的令人兴奋的发展，普遍适用于更多的数据模式。