Putting An End to End-to-End: Gradient-Isolated Learning of Representations 笔记

最新推荐文章于 2024-05-22 22:11:12 发布

Melody1211

最新推荐文章于 2024-05-22 22:11:12 发布

阅读量699

点赞数 1

分类专栏：论文阅读笔记文章标签：神经网络

本文链接：https://blog.csdn.net/Melody1211/article/details/104950998

版权

本文介绍了Greedy InfoMax算法，一种无需端到端反向传播的局部自监督表示学习方法。通过将深度网络拆分为梯度隔离的模块，每个模块最大化保留输入信息。尽管贪婪训练，但实验表明每个模块都提升了前一模块的表现，且在音频和视觉领域的分类任务中取得了竞争力的结果。这种方法支持异步优化，允许在大规模无标签数据上训练深层神经网络。

摘要由CSDN通过智能技术生成

Putting An End to End-to-End: Gradient-Isolated Learning of Representations

1. 论文讲了什么/主要贡献是什么

文章提出了Greedy InfoMax算法，该算法在贪婪自监督训练的情况下，仍能较好地完成音频和图像分类任务。
神经网络能够进行异步、解耦训练，允许在大于内存的输入数据上对任意深度的网络进行训练。
文中证明了互信息最大化特别适用于逐层贪婪优化，并认为这减少了梯度消失的问题。

2. 论文摘要：

We propose a novel deep learning method for local self-supervised representation learning that does not require labels nor end-to-end backpropagation but exploits the natural order in data instead. Inspired by the observation that biological neural networks appear to learn without backpropagating a global error signal, we split a deep neural network into a stack of gradient-isolated modules. Each module is trained to maximally preserve the information of its inputs using the InfoNCE bound from Oord et al. [2018]. Despite this greedy training, we demonstrate that each module improves upon the output of its predecessor, and that the representations created by the top module yield highly competitive results on downstream classification tasks in the audio and visual domain. The proposal enables optimizing modules asynchronously, allowing large-scale distributed training of very deep neural networks on unlabelled datasets.

我们提出了一种新的局部自监督表示学习的深度学习方法，这种方法不需要标签，也不需要端到端反向传播，而是利用数据中的自然顺序。在观察到生物神经网络似乎不需要反向传播全局错误信号就可以学习的启发下，我们将一个深度神经网络分解成一堆梯度隔离的模块。每个模块都经过训练，使用Oord等人的InfoNCE边界[2018]，最大限度地保留其输入的信息。尽管进行了这种贪婪的训练，但我们证明了每个模块都改进了前一个模块的输出，并且顶级模块创建的表示在音频和可视领域的下游分类任务中产生了极具竞争力的结果。该方案支持异步优化模块，允许在未标记的数据集上对深度非常大的神经网络进行大规模分布式训练。

3. 论文主要观点：

3.1 背景：

3.2 问题：

人类在学习的过程中只会依靠少量样本，并且并没有通过反向传播错误信号的方式来优化全局目标，生物大脑是高度模块化的，主要基于局部信息进行学习。而传统端到端的反向传播需要大量的标记样本，这些样本很难获得。因此，它不适用于大多数可用的数据，并且有过拟合的风险，因为深度模型所需的参数数量常常超过手边标记的数据点的数量。同时，端到端反向传播在简单的实现中会产生大量的内存开销，因为整个计算图(包括所有参数、激活和梯度)都需要加入到处理单元的工作内存中。端到端培训不支持异步优化各个层的精确方式，在全局优化的网络中，每一层都需要等待它的前一层提供输入，等待它的后一层提供梯度。

3.3 方法：

在这篇文章中，作者介绍了一种新的学习方法Greedy InfoMax (GIM)，在这些问题上有提高。通过将深度架构划分为梯度隔离的模块来消除端到端的反向传播，我们使用每个模块的贪婪的、自监督的损耗来训练这些模块。对于未标记的高维顺序或空间数据，文中逐个模块对其进行迭代编码。通过使用强制各个模块最大限度地保留其输入信息的损失，文中使堆中的模型来集体创建可用于下游任务的紧凑表示。

为了从对下游任务有用的数据中创建紧凑的表示，我们假设自然数据表现出慢特性（slow features [Wiskott and Sejnowski, 2002]）。理论上，这些特征对于后续的任务，如目标检测或语音识别，是非常有效的。例如，一个只有几毫秒的原始语音的小块与相邻的小块共享比如说话人的身份、情绪和音素的信息，而它不一定与从其他话语中随机抽取的小块共享这些信息。类似地，自然图像中的小块与邻近的小块在许多方面有共同之处，如所描绘的物体或照明条件。

文章的工作主要依靠对比预测编码（Contrastive Predictive Coding, CPC）[Oord et al., 2018]。这是一个自监督端到端的学习方法，能够通过最大化时间上相近的小块之间提取表示的互信息量来提取序列输入可用表示。为了实现这一点，CPC首先使用深度编码模型 $g_{enc}(x_t) = z_t$ 来处理顺序输入信号 $x$ ，然后使用自回归模型 $g_{ar}(z_{0:t}) = c_t$ 来生成一个表示 $c_t$ ，它可以聚合所有patch到时间步长 $t$ 的信息。然后，利用一个专门设计的全局概率损失(遵循噪声对比估计（Noise Contrastive Estimation, NCE）的原则)，最大化提取的表示 $z_{t+k}$ 和相邻时间块的 $c_t$ 之间的互信息，对于每个延迟 $k$ ，CPC有一个集 $X=\{ Z_{t+k},z_{j_1}, z_{j_2}, \dots, z_{j_{N-1}}\}$

最低0.47元/天解锁文章

Melody1211

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Putting An End to End-to-End: Gradient-Isolated Learning of Representations 笔记

Putting An End to End-to-End: Gradient-Isolated Learning of Representations1. 论文讲了什么/主要贡献是什么文章提出了Greedy InfoMax算法，该算法在贪婪自监督训练的情况下，仍能较好地完成音频和图像分类任务。神经网络能够进行异步、解耦训练，允许在大于内存的输入数据上对任意深度的网络进行训练。文...
复制链接

扫一扫

专栏目录