ICLR 2024 杰出论文出炉：“大模型”成最大赢家-CSDN博客

本文链接：https://blog.csdn.net/AMiner2006/article/details/138560670

昨天，国际表征学习大会（International Conference on Learning Representations，ICLR）公布了 ICLR 2024 杰出论文。

其中，在 5 篇杰出论文中，有 4 篇论文涉及大模型。另外，也有 11 篇论文获得荣誉提名。祝贺各位获奖者！

ICLR 是机器学习领域的一个学术会议，每年一次，通常在每年四月底或五月初举行。会议包括特邀演讲以及经评审论文的口头和海报展示。

ICLR 由 Yann LeCun（杨立昆）和 Yoshua Bengio 两位图灵奖得主创立，被学术研究者们广泛认可，被认为是“深度学习的顶级会议“。自 2013 年举办首届起，该会议一直采用开放式同行评审。

目前，ICLR 2024 正在奥地利维也纳举行（5 月 7 日 - 11 日）。

**杰出论文奖
**

论文1：Generalization in diffusion models arises from geometry-adaptive harmonic representations

作者：Zahra Kadkhodaie, Florentin Guth, Eero P Simoncelli, Stéphane Mallat

所属机构：纽约大学、Simons Foundation

论文链接：https://openreview.net/forum?id=ANvmVS2Yr0

获奖理由：这篇论文对图像扩散模型的泛化和记忆方面进行了重要的深入分析。作者根据经验研究了图像生成模型何时从记忆输入转换到泛化机制，并通过几何自适应谐波表征与谐波分析的思想建立联系，进一步从建筑归纳偏差的角度解释了这一现象。论文涵盖了我们对视觉生成模型理解中的一个关键缺失部分，很可能会对该领域未来的重要理论研究有所启发。

论文2：Learning Interactive Real-World Simulators

作者：Sherry Yang, Yilun Du, Seyed Kamyar Seyed Ghasemipour, Jonathan Tompson, Leslie Pack Kaelbling, Dale Schuurmans, Pieter Abbeel

所属机构：UC 伯克利、Google DeepMind、MIT

论文链接：https://openreview.net/forum?id=sFyTZEqmUY

获奖理由：汇集多个来源的数据来训练机器人基础模型是一个长期的宏伟目标。由于不同的机器人具有不同的感知-运动界面，这阻碍了大规模数据集的训练，因此带来了巨大的挑战。这项名为“UniSim”的工作是朝着这个方向迈出的重要一步，也是一项工程壮举，它使用基于视觉感知和控制文字描述的统一界面来聚合数据，并利用视觉和语言领域的最新发展，从数据中训练机器人模拟器。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

论文3：Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors

作者：Ido Amos, Jonathan Berant, Ankit Gupta

所属机构：特拉维夫大学、IBM

论文链接：https://openreview.net/forum?id=PdaPky8MUn

获奖理由：这篇论文深入探讨了最近提出的状态空间模型和 transformer 架构对长期顺序依赖关系的建模能力。令人惊讶的是，作者发现从头开始训练 transformer 模型会导致对其性能的低估，并证明通过预训练和微调设置可以获得巨大的收益。这篇论文执行得非常出色，在注重简洁性和系统性见解方面堪称典范。

论文4：Protein Discovery with Discrete Walk-Jump Sampling

作者：Nathan C. Frey, Dan Berenberg, Karina Zadorozhny, Joseph Kleinhenz, Julien Lafrance-Vanasse, Isidro Hotzel, Yan Wu, Stephen Ra, Richard Bonneau, Kyunghyun Cho, Andreas Loukas, Vladimir Gligorijevic, Saeed Saremi

所属机构：Genentech

论文链接：https://openreview.net/forum?id=zMPHKOmQNb

获奖理由：这篇论文探讨了基于序列的抗体设计问题，这是蛋白质序列生成模型的一项及时而重要的应用。为此，作者提出了一种创新而有效的新建模方法，专门用于处理离散蛋白质序列数据的问题。除了在计算机上验证该方法外，作者还进行了大量湿实验室实验，在体外测量抗体结合亲和力，证明了其生成方法的有效性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

论文5：Vision Transformers Need Registers

作者：Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski

所属机构：Meta、格勒诺布尔大学

论文链接：https://openreview.net/forum?id=2dnO3LLiJ1

获奖理由：这篇论文识别了视觉 transformer 网络特征图中的伪影（异常现象或错误），其特点是在低信息量背景区域中出现高规范 token。作者对出现这种情况的原因提出了关键假设，并提供了一个简单而优雅的解决方案，利用额外的寄存器 token 来解决这些伪像问题，从而提高模型在各种任务中的性能。从这项工作中获得的启示也会对其他应用领域产生影响。这篇论文写得非常好，提供了一个开展研究的绝佳范例——发现问题，了解问题发生的原因，然后提供解决方案。

杰出论文奖荣誉提名

此外，也有 11 篇论文获得荣誉提名，如下：

论文1：Amortizing intractable inference in large language models

作者：Edward J Hu, Moksh Jain, Eric Elmoznino, Younesse Kaddar, Guillaume Lajoie, Yoshua Bengio, Nikolay Malkin

论文链接：https://openreview.net/forum?id=Ouj6p4ca60

入选理由：这篇论文从贝叶斯推理的角度出发，提出了一种替代大型语言模型（LLM）自回归解码的可行方法，可为后续研究提供启发。

论文2：Approximating Nash Equilibria in Normal-Form Games via Stochastic Optimization

作者：Ian Gemp, Luke Marris, Georgios Piliouras

论文链接：https://openreview.net/forum?id=cc8h3I3V4E

入选理由：这篇论文写得非常清楚，在开发高效、可扩展的纳什求解器这一重要问题上取得了进展。

论文3：Beyond Weisfeiler-Lehman: A Quantitative Framework for GNN Expressiveness

作者：Bohang Zhang, Jingchu Gai, Yiheng Du, Qiwei Ye, Di He, Liwei Wang

论文链接：https://openreview.net/forum?id=HSKaGOi7Ar

入选理由：GNN 的表达性是一个重要课题，目前的解决方案（如 Weisfeiler-Lehman 检验）仍有很大的局限性。作者提出了一种基于同态计数的新“表现力理论”。

论文4：Flow Matching on General Geometries

作者：Ricky T. Q. Chen, Yaron Lipman

论文链接：https://openreview.net/forum?id=g7ohDlTITL

入选理由：这篇论文探讨了在一般几何流形上建立生成模型这一具有挑战性的重要问题，并为此提出了一种实用高效的算法。这篇论文的表述非常出色，并在广泛的任务中进行了全面的实验验证。

论文5：Is ImageNet worth 1 video? Learning strong image encoders from 1 long unlabelled video

作者：Shashanka Venkataramanan, Mamshad Nayeem Rizve, Joao Carreira, Yuki M Asano, Yannis Avrithis

论文链接：https://openreview.net/forum?id=Yen1lGns2o

入选理由：这篇论文通过从连续视频中学习，提出了一条自监督图像预训练的新途径。这篇论文既提供了新型数据，也提供了从新型数据中学习的方法。

论文6：Meta Continual Learning Revisited: Implicitly Enhancing Online Hessian Approximation via Variance Reduction

作者：Yichen Wu, Long-Kai Huang, Renzhen Wang, Deyu Meng, Ying Wei

论文链接：https://openreview.net/forum?id=TpD2aG1h0D

入选理由：作者针对元持续学习提出了一种新的方差缩小方法。该方法表述清晰，不仅具有实际影响，而且有遗憾分析作为支持。

论文7：Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs

作者：Suyu Ge, Yunan Zhang, Liyuan Liu, Minjia Zhang, Jiawei Han, Jianfeng Gao

论文链接：https://openreview.net/forum?id=uNrFpDPMyo

入选理由：这篇论文针对对基于 transformer 的 LLM 有重大影响的关键 KV 高速缓存压缩问题，采用一种无需资源密集型微调或重新训练即可部署的简单方法来减少内存。这种方法非常简单，但却证明相当有效。

论文8：Proving Test Set Contamination in Black-Box Language Models

作者：Yonatan Oren, Nicole Meister, Niladri S. Chatterji, Faisal Ladhak, Tatsunori Hashimoto

论文链接：https://openreview.net/forum?id=KS8mIvetg2

入选理由：一种简单而优雅的方法，用于测试 LLM 训练中是否包含了监督学习数据集。

论文9：Robust agents learn causal world models

作者：Jonathan Richens, Tom Everitt

论文链接：https://openreview.net/forum?id=pOoKI3ouv1

入选理由：这篇论文在为理解因果推理在智能体向新领域推广能力中的作用奠定理论基础方面取得了进展，并对一系列相关领域产生了潜在影响。

论文10：The mechanistic basis of data dependence and abrupt learning in an in-context classification task

作者：Gautam Reddy

论文链接：https://openreview.net/forum?id=aN4Jf6Cx69

入选理由：在我们刚刚开始了解“上下文学习”与“权重学习”时，这篇论文及时地、非常系统地研究了这些现象背后的机理。

论文11：Towards a statistical theory of data selection under weak supervision

作者：Germain Kolossov, Andrea Montanari, Pulkit Tandon

论文链接：https://openreview.net/forum?id=HhfcNgQn6p

入选理由：这篇论文为数据子集选择奠定了统计基础，并指出了流行数据选择方法的不足之处。

参考链接：

https://blog.iclr.cc/2024/05/06/iclr-2024-outstanding-paper-awards/