2024 年最有影响力的 5 篇机器学习论文
人工智能 (AI) 研究,特别是机器学习 (ML) 领域的研究,持续增加其在全球范围内受到的关注。为了让您了解围绕 AI 和 ML 的科学炒作,自 2023 年底以来,上传到开放获取预印本档案ArXiv 的作品数量几乎翻了一番,截至年底,存储库中提供了超过 3 万篇与 AI 相关的论文2024 年。正如您可能猜到的,其中大多数都以 ML 为重点;毕竟,深度学习架构、生成式人工智能解决方案以及当今几乎所有计算机视觉和自然语言处理系统本质上都是机器学习系统,它们从数据中学习以执行越来越令人惊讶的任务。
本文列出了 5 篇最有影响力的 ML 论文,它们在很大程度上塑造了整个 2024 年的人工智能研究趋势。虽然提供的链接是 ArXiv 存储库中的版本,但这些论文已在顶级会议或期刊中发表或正在发表过程中。
1. Vision Transformers Need Registers (T. Darcet et al.)
这篇论文在国际学习表征会议 (ICLR 2024) 上获得了最新的杰出论文奖之一,虽然最近几个月才在 ArXiv 上发表,但它很快就吸引了大量的读者和引用。
作者研究了视觉变换器偶尔在不太重要的图像区域(例如背景)生成高价值标记的问题。他们通过向输入添加额外的标记(称为寄存器标记)来解决这个问题,从而提高模型性能并在对象检测等视觉任务中获得更好的结果。
2. Why Larger Language Models Do In-context Learning Differently? (Z. Shi et al.)
这项于 2024 年春末发布的被高度引用的研究表明,小型语言模型 (SLM) 比大型语言模型 (LLM) 更能抵抗噪声,并且“不易分心”,因为它们强调更窄的隐藏特征选择— 与 LLM 相比,在 Transformer 架构的编码器和解码器层中学习到的特征。这项研究将理解和解释这些复杂模型的运作方式提升到了一个新的水平。
3. The Llama 3 Herd of Models (A. Grattafiori et al.)
这篇论文有近 600 名合著者,自 2024 年 7 月首次发表以来,这项大规模研究已经获得了数千次引用,并且可以说获得了更多的浏览量。虽然尚未向公众发布,但该论文介绍了 Meta 的新 405B 参数多语言语言模型,其在各种任务中的性能与 GPT-4 相匹配。它通过组合方法集成了多模态功能,在图像、视频和语音识别等用例中表现出竞争力。
4. Gemma: Open Models Based on Gemini Research and Technology (T. Mesnard et al.)
这是另一篇由 100 多名贡献者共同撰写的论文,于 2024 年春季发表,介绍了 Google 的两个最新模型,参数大小分别为 20 亿和 70 亿。基于与 Gemini 模型类似的技术,Gemma 模型在所调查的近 70% 的语言任务中优于类似大小的模型。该研究还对这些大型法学硕士的安全和责任方面进行了分析和反思。
5. Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction (K. Tian et al.)
这份名单的结尾不能不提到 2024 年最负盛名的全球会议之一 NeurIPS 上最新的获奖论文。该论文介绍了视觉自回归建模(VAR),这是一种新的图像生成方法,可以在粗分辨率和精细分辨率之间的阶段预测图像,从而产生有效的训练和增强的性能。 VAR 在绘画和编辑等视觉任务中优于最先进的扩散变压器,同时展示了类似于法学硕士的缩放属性。