ICML 2024 大语言模型相关507篇论文整理

导读

国际机器学习会议(International Conference on Machine Learning,简称ICML)是机器学习领域最具影响力的国际学术会议之一。ICML聚集了来自全球范围内的学者、研究人员和从业者,以分享他们在机器学习领域的最新研究成果、进展和创新想法。今年的 ICML 会议已在 2024 年 7 月 21 日~ 7 月 27 日于奥地利维也纳举办。

据官方邮件通知,今年 ICML 共收到 9473 份投稿,其中 2610 份被接收,接收率约为 27.55%。RLCN 从入选论文中筛选出大语言模型相关论文 507 篇,并分类整理出 21 个类别,包括Efficient LLM,Alignment/AI Safety,Evaluation, Multimodal,Reasoning等,供大家参考学习。点击文末“阅读原文”,即可在 RLChina社区获得 PDF 版分类列表。

论 文

整 理

图1. 由ICML 2024 507大模型相关论文标题生成的词云图

在今年被接收的论文中,共计 507 篇论文与大语言模型(Large Language Model) 相关。由于大语言模型本身具有大规模的网络参数,以及对高算力、大数据的需求,关于 efficient LLM 的研究是最多的,包括模型压缩、加速训练(包括 微调)、加速推理、高效架构设计等。其次,针对人工智能领域的安全性和价值对齐( Alignment/AI Safety),如何评估语言模型的能力,包括通用能力与特用能力(Evaluation),如何提高大语言模型的逻辑推理能力(Reasoning),以及多模态的大模型(Multimodal)都是当前备受关注的研究领域。本次 ICML 中稿论文中关于时间序列预测(Time Series Forecasting),LLM 优化序列决策任务(LLM for sequential decision making)较以往更多一些。总体上,随着大语言模型的发展,可研究的问题在不断涌现,论文写作的门槛也有所降低,这导致论文投稿数量也不断增加,很期待未来有更多有价值的工作出现!

我们将所有论文分为 21个类别,各类别及所属论文数见表 1。

表 1. ICML 2024 中稿论文中 LLM 相关论文分类

我们还整理了 ICML 2024 中稿论文中与 LLM 相关的论文的作者中稿次数排名:

图 2. ICML 2024 LLM 相关论文接收数量作者排名图

论 文 分 类

列 表

每个类别的论文信息可以在下表中进行查阅。

表 2. ICML 2024 中稿论文中 LLM 相关 507 篇论文分类整理

<think>好的,用户现在想查找关于大语言模型的学术论文,特别是提到了“large language model academic papers”。我需要根据提供的引用资料和系统指令来构建回答。首先,我得确保回答结构清晰,符合用户的要求,同时引用提供的资料。 首先,我应该整理用户提供的引用内容。引用1到4分别提到了Baichuan2、LLMs的优缺点、ChatGLM系列模型以及DeepSeek-Coder的相关研究。这些可以作为推荐的论文来源。用户可能需要具体的论文查找方法,比如数据库、会议、预印本平台等。 接下来,系统指令要求生成相关问题,所以需要准备几个相关问题,比如如何评估LLMs、如何优化训练效率等。同时,回答中要自然添加引用标识,比如在提到某个模型时引用对应的资料。 需要注意使用中文,并且数学公式用$...$或$$...$$格式。不过当前问题不涉及数学公式,可能不需要处理这部分。但还是要检查是否有地方可能需要用到,比如如果有模型参数或公式的话,但看起来用户的问题主要是关于论文查找,可能不涉及数学表达式。 然后,按照用户可见层的结构,回答需要分步骤,结构清晰。例如,首先推荐学术数据库,然后列举顶级会议,接着预印本平台,最后推荐具体论文。每个部分后面添加相关引用。 另外,用户可能没有说出全部需求,比如他们可能不仅需要查找论文的方法,还需要了解如何筛选高质量的论文,或者如何跟踪最新研究。所以生成的相关问题可以覆盖这些方面,比如如何评估、优化、应用场景等。 现在开始组织回答: 1. 学术数据库:推荐Google Scholar、arXiv、ACL Anthology等,引用中提到DeepSeek-Coder的研究可能在arXiv上发布,引用4。 2. 顶级会议:比如NeurIPS、ICML、ACL等,引用中的模型如ChatGLM、Baichuan2可能在这些会议上发表,引用1和3。 3. 预印本平台:arXiv和Hugging Face,引用中的论文可能来自这里,引用2和4。 4. 具体论文推荐:根据提供的引用,列出Baichuan2、ChatGLM、DeepSeek-Coder等,对应引用1、3、4。 生成的问题需要与用户的问题相关,可能涉及评估方法、优化技术、应用场景等,确保覆盖用户可能的后续疑问。 检查是否所有引用都正确使用,例如引用4提到的DeepSeek-Coder在SWE-Bench上的表现,可以指出其在代码生成中的应用,属于应用场景部分。 最后,确保回答中没有使用markdown格式,段落清晰,引用标识自然添加,比如在提到每个模型或研究时在句末加上引用编号。</think>针对大语言模型学术论文的查找与研究,以下是分步骤建议: ### 1. **核心学术数据库检索** - **Google Scholar**:搜索关键词如`"large language model"`、`"LLM architecture"`,按时间排序可获取最新研究,例如*Baichuan 2*模型的技术细节可在此找到[^1]。 - **arXiv.org**:重点关注`cs.CL`(计算语言学)和`cs.LG`(机器学习)分类,例如*DeepSeek-Coder*的代码生成研究即发布于此处
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值