引言
作为人工智能领域最负盛名的会议之一,ICML 每年都会吸引全球顶尖的研究人员提交数千篇论文。今年,ICML 共收到 9653 篇论文投稿,但最终仅接受了 2609 篇,录用率仅为 27.03%。
本文将深入探讨 ICML 2024 上一些备受瞩目的论文,涵盖最佳论文奖、时间序列、大语言模型与迁移学习、计算机视觉与音频等多个领域。
最佳论文奖
论文标题: Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining
作者: Gautam Kamath(滑铁卢大学教授)、Florian Tramr(苏黎世联邦理工学院计算机科学家)、Nicholas Carlini(谷歌 DeepMind 研究员)
核心内容:
该论文对迄今为止大型语言模型(LLM)的训练范式提出了挑战。
-
背景: 目前,训练 LLM 通常采用以下方法:首先使用公开数据进行预训练,然后在私有数据上进行微调。然而,论文指出,公开数据本身可能包含敏感或私人信息,而即使经过“隐私保护”的微调,模型仍然可能会记住其预训练数据,这直接危害了隐私,并削弱了“隐私学习”的意义。
-
问题根源:
-
对公开预训练价值的过度估计,仅基于公开数据和私有数据分布重叠的参数。
-
训练这些大型模型需要大量计算资源,无法在最终用户的机器上执行,导致私有数据的外包。
-
意义: 该论文对当前私有学习实践的批判性立场恰逢 LLM 领域越来越多小型模型涌现之际。作者呼吁科学界考虑解决这些问题的方法。
时间序列
1. 论文标题: A decoder-only foundation model for time-series forecasting
作者: Das 等人
核心内容:
-
研究问题: 能否利用在海量时间序列数据上训练的大型预训练模型学习时间模式,从而对未见过的数据集进行时间序列预测?
-
方法:
-
分块处理: 分块类似于语言模型中的 token。
-
仅解码器模型: 给定一系列输入分块,模型经过优化,可以根据所有过去分块预测下一个分块。
-
更长的输出分块: 更长的输出序列可以避免与预测范围长度先验知识相关的限制。
-
受 LLM 和基础模型快速发展的启发,研究人员提出了一种名为 TimesFM(时间序列基础模型)的基础模型,用于零样本时间序列预测。
-
TimesFM 的架构基于以下原则:
-
结果:
-
该零样本模型能够达到全监督模型的性能。
-
在多个数据集上的实验结果表明,TimesFM 在时间序列预测任务中表现出色,甚至优于一些传统模型。
2. 论文标题: Position: What Can Large Language Models Tell Us about Time Series Analysis
作者: Jin, Zhang 等人
核心内容:
-
主要贡献:
-
路线图:
-
1950-2000 年代:统计时间序列模型(如 ARIMA、Holt-Winters)。
-
2010 年代:神经网络时间序列模型(如 RNN、TCN、STGNN)。
-
2022 年:预训练时间序列模型(如 TF-C、TimeCLR)。
-
2024 年:以 LLM 为中心的时间序列模型(如 Time-LLM、SocioDojo)。
-
为 LLM 在时间序列分析中的应用提供了新的视角。
-
对现有方法进行了基准测试和回顾,并提出将 LLM 集成到时间序列分析中的路线图。
-
确定了未来机会,例如利用 LLM 解决复杂现实世界的时间序列分析任务。
3. 论文标题: TimeMIL: Advancing Multivariate Time Series Classification via a Time-aware Multiple Instance Learning
作者: Chen, Qiu 等人
核心内容:
-
研究问题: 多变量时间序列分类模型如何更好地捕捉时间序列中的兴趣点和时间依赖性?
-
方法:
-
提出一种新的方法,称为多实例学习(TimeMIL),该方法利用弱监督学习来区分时间序列中的正负实例。
-
TimeMIL 将每个时间点视为一个实例,并学习区分包含正实例和负实例的包。
-
与传统的监督学习方法相比,TimeMIL 可以更好地捕捉时间序列中的罕见事件和模式。
4. 论文标题: Time Weaver: A Conditional Time Series Generation Model
作者: Narasimhan 等人
核心内容:
-
研究问题: 如何将元数据(如天气、位置等)整合到时间序列生成模型中?
-
方法:
-
提出一种基于扩散模型的方法,该方法利用元数据(以分类、连续或时间特征的形式)来生成更逼真的时间序列。
-
引入了一种新的评估指标,可以更准确地捕捉生成时间序列的真实感。
-
该模型在能源领域等需要整合元数据的时间序列生成任务中表现出色。
大语言模型与迁移学习
趋势: 小型化模型成为主流,研究方向主要集中在模型蒸馏和更高效的微调技术。
1. 论文标题: Transferring Knowledge from Large Foundation Models to Small Downstream Models
作者: Qiu 等人
核心内容:
-
方法:
-
基于权重的迁移信息传递有限。
-
预训练模型通常较大。
-
无法结合多个学习互补信息的模型。
-
提出一种新的知识迁移方法,称为自适应特征迁移(AFT)。
-
与传统的基于权重的迁移学习不同,AFT 直接在特征上操作,自适应地迁移那些最有用的特征。
-
该方法旨在解决以下与迁移学习相关的问题:
2. 论文标题: LLaGA: Large Language and Graph Assistant
作者: Chen 等人
核心内容:
-
方法:
-
提出一种名为 LLaGA(大型语言与图助手)的新模型,该模型利用 LLM 处理图数据。
-
该方法基于将图数据映射到与 LLM 兼容的空间。
-
LLaGA 在多个数据集上表现出良好的泛化能力和可解释性。
3. 论文标题: FrameQuant: Flexible Low-Bit Quantization for Transformers
作者: Adepu 等人
核心内容:
-
研究问题: 如何在不显著降低性能的情况下,对 Transformer 模型进行更高效的量化?
-
方法:
-
提出了一种 2 位量化方法,该方法基于一种称为“融合帧”的谐波分析。
-
研究表明,量化的关键不在于原始权重空间,而在于融合帧的表示。
-
该方法可以在保持性能的同时,将模型大小和计算成本降低到更低水平。
4. 论文标题: DISTILLM: Towards Streamlined Distillation for Large Language Models
作者: Ko 等人
核心内容:
-
方法:
-
提出了新的目标函数 Skew KLD(Kullback-Leibler 散度),该函数针对稳定的梯度和最小的近似误差进行了优化。
-
采用自适应非策略方法减少训练时间。
-
性能优异,效率高,与最先进的技术不相上下。
-
针对 LLM 引入了一种新的模型蒸馏方法,称为 DistiLLM。
-
主要贡献:
计算机视觉与音频
1. 论文标题: Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model
作者: Zhu, Liao 等人
核心内容:
-
方法:
-
利用 Mamba 架构(一种新型的状态空间模型架构)进行视觉数据处理。
-
Vision Mamba(Vim)采用双向状态空间模型,并结合投影层、MLP 和预测层。
-
与 Vision Transformers 相比,Vim 在 ImageNet 分类任务、COCO 对象检测和分割任务中表现出更优的性能,同时速度提高了 2.8 倍,GPU 内存节省了 86.8%。
2. 论文标题: ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy
作者: Vishniakov 等人
核心内容:
-
研究问题: 如何超越准确率来衡量视觉模型的性能?
-
方法:
-
探讨了 ConvNet、Transformer 和 CLIP 等不同视觉模型在误差类型、输出校准、可迁移性、特征不变性等方面的差异。
-
强调了在评估视觉模型时,除了准确率之外,还需要考虑其他因素,以捕捉所有可能的细节。
3. 论文标题: UniAudio: Towards Universal Audio Generation with Large Language Models
作者: Yang, Tian 等人
核心内容:
-
方法:
-
对所有类型的目标音频以及其他条件模态进行标记化。
-
将源-目标对连接成单个序列。
-
使用 LLM 进行下一个标记预测。
-
提出了一种名为 UniAudio 的模型,该模型利用 LLM 技术生成各种类型的音频,包括声音、语音、音乐和歌唱。
-
训练数据包含 165,000 小时的音频,模型参数为 10 亿。
-
UniAudio 的工作原理:
-
对所有类型的目标音频以及其他条件模态进行标记化。
-
将源-目标对连接成单个序列。
-
使用 LLM 进行下一个标记预测。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。