作者:Ram Sagar
编译:IvyLee
原文:10 Interesting Papers To Look Forward To At ICML 2020[1]
题图出处:pixbay
ICML2020 于本月18号结束,今年的ICML 共收到了4990篇投稿,最终收录1088篇。Analytics India 杂志栏目作者Ram Sagar 从入选论文中选出了他眼中的10篇有趣研究。
Ram Sagar 拥有机器人学硕士学位,兴趣在于研究人工智能的发展,本文撰写在线发表于analyticsindiamag.com,biendata小分队对文章做了编译供大家阅读。
1.重新思考元学习的批归一化
元学习(Meta-learning)依赖于深度网络,这使得批归一化(batch normalization)成为元学习pipeline的重要组成部分。但是,存在一些情况可能使常规批归一化无效,这引起了作者对于归一化的重新思考。作者评估了用于元学习场景的一系列批归一化方法,开发了一种新颖的方法 —— TaskNorm。实验表明,不论对于基于梯度(gradient-based),还是无梯度(gradient-free)的[元学习]方法,这种批归一化的选择对分类准确性和训练时间都具有显着影响,此外,TaskNorm 还能够持续提高性能。
原论文:Rethinking Batch Normalization for Meta-Learning[2]
2.RNN 和 LSTM 有长期记忆吗?
此论文提出了一个问题 —— RNN 和 LSTM 是否具有长期记忆?作者试图从统计学的角度回答这一问题,证明 RNN 和 LSTM 不具备统计意义上的长期记忆。他们为长期记忆网络引入了新的定义,该定义要求模型权重以多项式速率衰减。为了验证这一理论,作者将 RNN 和 LSTM 转换为长期记忆神经网络,并且在具备长期记忆性质的数据集上验证了它们的优越性。
原论文:Do RNN and LSTM have Long Memory?[3]
3.像素生成预训练
受到自然语言的无监督表征学习(unsupervised representation learning)的启发,OpenAI 的研究人员研究了类似的模型是否可以学习图像的有用表征。他们训练一个序列 Transformer,自回归预测(auto-regressively)像素,无需结合 2D 输入结构的信息。尽管是在没有标注的低分辨率 ImageNet 上进行的训练,他们发现 GPT-2 缩放模型可以通过线性探测、微调和低数据分类来学习强大的图像表征。
原论文:Generative Pretraining from Pixels[4]
4.改进 RNN 的门控机制
门控机制广泛用于神经网络模型,可以使梯度更容易通过深度或时间反向传播。在此论文中,作者通过对标准门控机制提出两种修改来解决延迟的关键问题,无需额外的超参数,并且在门接近饱和时提高了门的可学习性。论文中展示了其简单的门控机制可在图像分类、语言建模和强化学习方面稳健地提高循环模型的性能。
原论文:Improving the Gating Mechanism of RNNs[5]
5.学习内在奖励可以捕获什么?
强化学习(Reinforcement Learning,RL)智能体的目标是奖励最大化。在此论文中,作者们认为奖励函数自身可以成为学习知识的好地方。为了进一步研究,他们提出了一个可伸缩的元梯度(meta-gradient)框架,跨多个生命周期学习有用的内在奖励函数,从而表明,学习并捕获有关长期探索和开发的知识到奖励函数是可行的。
原论文:What Can Learned Intrinsic Rewards Capture?[6]
6.深度 ReLU 网络逆向工程
人们普遍认为,神经网络无法从输出中复现,因为神经网络以高度非线性的方式依赖于自身的参数。此论文对这一观点进行了研究。作者声称,仅观察输出,就可以确定未知的深度 ReLU 网络的架构、权重和偏差。通过将区域边界集合分解为与特定神经元相关的组件,恢复神经元的权重及其在网络中的排列是有可能的。
原论文:Reverse-Engineering Deep ReLU Networks[7]
7.表征学习的自由能原理
此论文将机器学习与热力学的形式联系起来,表示迁移学习(transfer learning)的表征质量。文中讨论了模型的速率、失真和分类损失位于凸形的所谓“平衡表面”(equilibrium surface)上的情况,规定了在约束条件下遍历该表面的热力学过程,演示了如何使用此过程将表征从源数据集传输到目标数据集,同时保持分类损失不变。
原论文:A Free-Energy Principle for Representation Learning[8]
8.深度散度学习
本文介绍了深度 Bregman 散度 —— 基于使用神经网络对功能性 Bregman 散度进行的学习和参数化。作者描述了一种深度学习框架,用于学习一般功能性 Bregman 散度,并在实验中表明,与现有的深度度量学习方法相比,该方法在基准数据集上具有更高的性能。这项研究还对有关的新颖应用做了讨论,包括半监督分布式聚类问题和用于无监督数据生成的新损失函数。
原论文:Deep Divergence Learning[9]
9.通过特征量化改进 GAN 训练
这项研究提出了针对判别器的特征量化(Feature Quantization,FQ),以便将真实和伪造的数据样本都嵌入共享的离散空间中。作者表示,这种方法可以轻松地插入到现有的 GAN 模型,而训练所需的计算量却很少。他们将 FQ 应用于生成图像的 BigGAN、人脸合成的 StyleGAN,以及无监督图像到图像转换的 U-GAT-IT。结果表明,FQ-GAN 可以在各种任务上大幅度提高 Frechet-Inception 距离得分(Frechet-Inception Distance score,FID),从而实现新的最先进性能。
原论文:Feature Quantization Improves GAN Training[10]
10.LEEP:一种用于评估分类器学习过的表征可传递性的新方法
对数期望经验预测(Log Expected Empirical Prediction,LEEP)是一种新方法,用于评估分类器学习过的表征的可传递性。即使对于小型数据或不平衡的数据,LEEP 也可以预测传输和元传输学习方法的性能和收敛速度。作者指出,LEEP 的性能优于最近提出的可迁移性度量(transferability measures),例如负条件熵(negative conditional entropy)。从 ImageNet 转移到 CIFAR100 时,与最佳竞争方法相比,LEEP 可以实现高达 30% 的改进。
原论文:LEEP: A New Measure to Evaluate Transferability of Learned Representations[11]
图表来源:Sergei Ivanov[12]
查看所有论文列表[13]
References
[1]
10 Interesting Papers To Look Forward To At ICML 2020: https://analyticsindiamag.com/papers-icml-2020-research-conference/[2]
Rethinking Batch Normalization for Meta-Learning: https://arxiv.org/pdf/2003.03284[3]
Do RNN and LSTM have Long Memory?: https://arxiv.org/pdf/2006.03860.pdf[4]
Generative Pretraining from Pixels: https://cdn.openai.com/papers/Generative_Pretraining_from_Pixels_V2.pdf[5]
Improving the Gating Mechanism of RNNs: https://arxiv.org/pdf/1910.09890[6]
What Can Learned Intrinsic Rewards Capture?: https://arxiv.org/pdf/1912.05500[7]
Reverse-Engineering Deep ReLU Networks: https://arxiv.org/pdf/1910.00744.pdf[8]
A Free-Energy Principle for Representation Learning: https://arxiv.org/pdf/2002.12406[9]
Deep Divergence Learning: https://arxiv.org/pdf/2005.02612[10]
FQ-GAN: https://arxiv.org/pdf/2004.02088.pdf[11]
LEEP: A New Measure to Evaluate Transferability of Learned Representations: https://arxiv.org/pdf/2002.12462[12]
Sergei Ivanov: https://medium.com/criteo-labs/icml-2020-comprehensive-analysis-of-authors-organizations-and-countries-c4d1bb847fde[13]
查看所有论文列表: https://icml.cc/Conferences/2020/Schedule?type=Poster