Putting An End to End-to-End: Gradient-Isolated Learning of Representations 笔记

本文介绍了Greedy InfoMax算法,一种无需端到端反向传播的局部自监督表示学习方法。通过将深度网络拆分为梯度隔离的模块,每个模块最大化保留输入信息。尽管贪婪训练,但实验表明每个模块都提升了前一模块的表现,且在音频和视觉领域的分类任务中取得了竞争力的结果。这种方法支持异步优化,允许在大规模无标签数据上训练深层神经网络。
摘要由CSDN通过智能技术生成

Putting An End to End-to-End: Gradient-Isolated Learning of Representations

1. 论文讲了什么/主要贡献是什么

  • 文章提出了Greedy InfoMax算法,该算法在贪婪自监督训练的情况下,仍能较好地完成音频和图像分类任务。

  • 神经网络能够进行异步、解耦训练,允许在大于内存的输入数据上对任意深度的网络进行训练。

  • 文中证明了互信息最大化特别适用于逐层贪婪优化,并认为这减少了梯度消失的问题。

2. 论文摘要:

We propose a novel deep learning method for local self-supervised representation learning that does not require labels nor end-to-end backpropagation but exploits the natural order in data instead. Inspired by the observation that biological neural networks appear to learn without backpropagating a global error signal, we split a deep neural network into a stack of gradient-isolated modules. Each module is trained to maximally preserve the information of its inputs using the InfoNCE bound from Oord et al. [2018]. Despite this greedy training, we demonstrate that each module improves upon the output of its predecessor, and that the representations created by the top module yield highly competitive results on downstream classification tasks in the audio and visual domain. The proposal enables optimizing modules asynchronously, allowing large-scale distributed training of very deep neural networks on unlabelled datasets.

我们提出了一种新的局部自监督表示学习的深度学习方法,这种方法不需要标签,也不需要端到端反向传播,而是利用数据中的自然顺序。在观察到生物神经网络似乎不需要反向传播全局错误信号就可以学习的启发下,我们将一个深度神经网络分解成一堆梯度隔离的模块。每个模块都经过训练,使用Oord等人的InfoNCE边界[2018],最大限度地保留其输入的信息。尽管进行了这种贪婪的训练,但我们证明了每个模块都改进了前一个模块的输出,并且顶级模块创建的表示在音频和可视领域的下游分类任务中产生了极具竞争力的结果。该方案支持异步优化模块,允许在未标记的数据集上对深度非常大的神经网络进行大规模分布式训练。

3. 论文主要观点:

3.1 背景:

3.2 问题:

人类在学习的过程中只会依靠少量样本,并且并没有通过反向传播错误信号的方式来优化全局目标,生物大脑是高度模块化的,主要基于局部信息进行学习。而传统端到端的反向传播需要大量的标记样本,这些样本很难获得。因此,它不适用于大多数可用的数据,并且有过拟合的风险,因为深度模型所需的参数数量常常超过手边标记的数据点的数量。同时,端到端反向传播在简单的实现中会产生大量的内存开销,因为整个计算图(包括所有参数、激活和梯度)都需要加入到处理单元的工作内存中。端到端培训不支持异步优化各个层的精确方式,在全局优化的网络中,每一层都需要等待它的前一层提供输入,等待它的后一层提供梯度。

3.3 方法:

在这篇文章中,作者介绍了一种新的学习方法Greedy InfoMax (GIM),在这些问题上有提高。通过将深度架构划分为梯度隔离的模块来消除端到端的反向传播,我们使用每个模块的贪婪的、自监督的损耗来训练这些模块。对于未标记的高维顺序或空间数据,文中逐个模块对其进行迭代编码。通过使用强制各个模块最大限度地保留其输入信息的损失,文中使堆中的模型来集体创建可用于下游任务的紧凑表示。

为了从对下游任务有用的数据中创建紧凑的表示,我们假设自然数据表现出慢特性(slow features [Wiskott and Sejnowski, 2002])。理论上,这些特征对于后续的任务,如目标检测或语音识别,是非常有效的。例如,一个只有几毫秒的原始语音的小块与相邻的小块共享比如说话人的身份、情绪和音素的信息,而它不一定与从其他话语中随机抽取的小块共享这些信息。类似地,自然图像中的小块与邻近的小块在许多方面有共同之处,如所描绘的物体或照明条件。

文章的工作主要依靠对比预测编码(Contrastive Predictive Coding, CPC)[Oord et al., 2018]。这是一个自监督端到端的学习方法,能够通过最大化时间上相近的小块之间提取表示的互信息量来提取序列输入可用表示。为了实现这一点,CPC首先使用深度编码模型 g e n c ( x t ) = z t g_{enc}(x_t) = z_t genc(xt)=zt来处理顺序输入信号 x x x,然后使用自回归模型 g a r ( z 0 : t ) = c t g_{ar}(z_{0:t}) = c_t gar(z0:t)=ct来生成一个表示 c t c_t ct,它可以聚合所有patch到时间步长 t t t的信息。然后,利用一个专门设计的全局概率损失(遵循噪声对比估计(Noise Contrastive Estimation, NCE)的原则),最大化提取的表示 z t + k z_{t+k} zt+k和相邻时间块的 c t c_t ct之间的互信息,对于每个延迟 k k k,CPC有一个集 X = { Z t + k , z j 1 , z j 2 , … , z j N − 1 } X=\{ Z_{t+k},z_{j_1}, z_{j_2}, \dots, z_{j_{N-1}}\} X={ Zt+k,zj1,zj2,,zjN1

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值