2023年最具影响力的 10 篇AI论文(Llama2、SAM、LLM、 Pythia、QLoRA、BloombergGPT、DPO、Mistral 7B、Orca 2、transformer)

    2023 一年又过去,这一年,AI 圈子以一种“狂飙突进”的速度飞速发展,哪怕在这个领域深耕多年的学者们也开始感叹“从没有见过哪个领域在哪一年如同 AI 领域在 2023 年这样如此飞速的发展与不断的进化”,毫无疑问,这一年 AI,尤其是大模型的爆发将会深刻影响未来我们生活的方方面面。

    抱着年终总结,也是对过去的 2023 这一里程碑式的一年回顾与展望的态度,来自 Ahead AI 的 Sebastian Raschka 博士为我们带来了 2023 年最值得大家关注,也是最有影响力的十篇 AI 论文,这里我们就和大家一起,用这十篇工作再次为 2023 年写下一段注脚(十篇论文不分先后)

一、Pythia — 大模型该如何训练?

    来自 Eleuther AI 和耶鲁大学的学者们在 4 月份发布的论文《Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling》中发布了开源模型 Pythia,Pythia 由 8 个参数范围从 70M 到 12B 的大模型组成,并且,划重点, Pythia 从权重到数据做到了完完全全的开源,可以面向商业用途直接使用。

    而除了“开源”,Pythia 论文的真正价值在于,它给出了一套完整而又详细的“大模型训练方案”,发布了 Pythia 的训练细节,并且对训练过程进行了详细的分析与充分的实验,在多个细节之处给出了出色的洞见与理解。 

Pythia 给出的经验法则包括:

1、对重复数据进行预训练会带来什么问题?答:删除重复数据既不会增强模型性能也不会损害模型性能

2、训练顺序会影响模型记忆吗?答:不会,重新排序训练数据不会减轻模型的“逐字记忆”问题

3、预训练中,一些术语的频率会影响下游任务吗?答:会的,出现频次更高的术语在 few-shot 中准确往往更高

4、增强 batch 大小如何影响模型的训练?答:增加 batch 将会使得训练时间减半,但不会损害其收敛性 

入选理由:不仅仅因为开源了一个大模型,Pythia 用大量实验与优美的文字回答了大模型训练过程中的许多有趣问题,细节翔实,过程透明。

论文题目: Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling

发表时间:2023 年 4 月 3 日

 二、Llama 2 — 开源模型之王

    作为 Meta AI 广受好评的 Llama 1 的续作,《Llama 2: Open Foundation and Fine-Tuned Chat Models》公布的从 7B 到 70B 的一系列大模型当今天也仍然是世界范围内功能最强大与使用最为广泛的开源模型之一。

在模型方面,Llama 2 与许多其他 LLM 的区别在于,Llama 2 是目前市面上不多的经过了 RLHF 微调后的模型 

此外,Llama 2 77 页的论文中记录的技术细节也是为开源社区留下的一笔不可多得的财富,其中记录的如从最开始的有监督微调(SFT-v1) 到最终使用 PPO + RLHF 微调(RLHF-v5) 的演变历程,也可以促使人们更多的思考大模型这项技术的持续改进 

入选理由:尽管许多大公司现在都在推出自己专有的大模型,但看到 Meta 在开源领域内的深耕还是让人眼前一亮
论文题目:Llama 2: Open Foundation and Fine-Tuned Chat Models 

发表时间:2023 年 7 月 18 日

三、QLoRA — 高效微调

    QLoRA 可能是目前大模型微调这个领域最亮眼的一颗明星,《QLoRA: Efficient Finetuning of Quantized LLMs》这篇论文建立在流行的 LoRA 技术基础之上,提出了一种更加内存高效的微调方法,使得更大的模型可以放进显存更小的 GPU。

 LoRA 的技术原理如上图所示,将更新权重拆成两个低秩矩阵相乘的形式,降低了模型微调的资源需求。而 QLoRA 指经过量化处理的 LoRA,通过将 LoRA 中的低秩矩阵的连续值范围映射到一组有限的离散区间,以降低其数值精度需求,而减少模型的内存占用和计算需求。

在 QLoRA 的论文中,QLoRA 大大降低了 65B Llama 的内存需求,使得其可以被单个显存 48GB 的 GPU(A100) 所训练,使用 QLoRA 经过 24 个小时的微调就达到了 ChatGPT 性能的 99.3% ,当然由于多了一步映射,导致 QLoRA 的计算时长略长于普通的 LoRA 

入选理由:大模型微调问题与大模型问题本身一样重要,而 QLoRA 给出了一种方便优雅的工具通过降低 GPU 显存需求而使得大模型微调更加容易
论文题目:QLoRA: Efficient Finetuning of Quantized LLMs 

发表时间:2023 年 5 月 23 日

四、BloombergGPT — 垂直领域大模型翘楚

    区别于其他论文,《BloombergGPT: A Large Language Model for Finance》可能并没有提出什么突破性的新见解或新方法。但是这个由全球商业、金融信息和财经资讯的巨头公司 Bloomberg(彭博)发布的今日大模型,在一众垂直领域模型越来越 “close” 的大趋势下,还将垂直领域模型训练方法描述的如此详尽实属不多见。

    具体而言,BloombergGPT 是一个投资数百万美元的 500 亿参数的金融领域大模型,使用了来自金融行业专用的数据集进行训练(包含 3630 亿的垂直数据以及 3450 个通用公开数据)。由于使用了 Chinchilla 缩放法则,相比之下,GPT-3 的大小是其的 3.5 倍,但是训练数据量却少了 1.4 倍。

入选理由:BloombergGPT 是一个垂直领域大模型训练的有趣实例与示范性研究。在商业秘密变得越来越重要的当下,对希望在垂直领域训练大模型的研究者们而言,这是一篇不可多得的实用参考文献。
论文题目:BloombergGPT: A Large Language Model for Finance 

发表时间:2023 年 3 月 30 日

 五、DPO — 对 RLHF 的革命性技术

    《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》的入选可以说是毫无悬念。RLHF 是一项成功而又有用的技术,但是无论是在 ChatGPT 中,还是在 Llama 2 中,它的实现都复杂且繁琐,并且成本高昂。简单回顾一下 RLHF 的工作流程:

1、有监督微调:在下游任务数据集上进行微调

2、奖励建模:通过人类评估者给出的有关模型输出的反馈,创建奖励模型以学习预测“与人类价值观一致”的输出类型

3、PPO:使用强化学习的 PPO 算法利用奖励模型来调整模型策略

 而 DPO 的突出贡献在于,通过推导使用下图的式子直接将 RLHF 中奖励建模的一步省略,使用简单的分类目标无需显式建模奖励模型就可以优化语言模型以符合人类偏好。

 

目前,一些模型开始使用 DPO 取代 RLHF 来作为大模型对齐方法,例如 Zephyr-7B 基于 Mistral-7B 使用了 DPO 进行微调,而 Zephyr-7B 的实验表明,使用 DPO 后它优于同期所有同尺寸的其他模型。

入选理由:DPO 以其令人印象深刻的简单性同样做到了复杂的 RLHF 所做到的事,其对问题的理解与公式推导堪称优美
论文题目:
Direct Preference Optimization: Your Language Model is Secretly a Reward Model 

发表时间:2023 年 5 月 29 日

六、Mistral 7B — “小模型”的典范

    《Mistral 7B》这篇论文的标题简洁到不符合任何学术论文的起名规范,但是它提出的模型却是相当有影响力的。作为基础模型,Mistral 7B 直接催生了另外两个著名的模型:前文提到的 Zephyr 7B 和最新的 Mistral Mixture of Experts(MoE)方法。

    简而言之,《Mistral 7B》 论文提出了一个只有 7B 的小模型,但在各种基准测试中,其性能却超过了其他更大的模型,例如 13B 的 Llama 2 模型。Mistral 7B 也同时是今年 NeurIPS LLM 微调和效率挑战赛中获胜方案的基础模型。

 由于没有公布训练数据,因此 Mistral 7B 的优异表现是否来源于高质量的数据集还不能确定。而在架构方面,Mistral 7B 与 Llama 2 类似,不过多了一个滑动窗口注意力机制(Sliding Window Attention),以节省内存,增强计算效率并加快训练速度。滑动窗口注意力使得模型不必关注未来之前所有的 tokens,而只需要关注特殊数量的 tokens。

    举个例子,当窗口大小为 4096 时,在常规的自注意力机制中,模型看到第 50000 个 token 时需要关注所有之前的 49999 个 token。而在滑动窗口自注意力中,Mistral 模型只需要关注 45904 到 50000 的 tokens。当然,尽管滑动窗口注意力对 Mistral 模型有可能带来了提升,但是其优异的性能应该不止是由于滑动窗口注意力。

    在 Mistral 7B 的基础上,有两个值得关注的模型被提出,分别是 Zephyr 7B ——第一个经过 DPO 训练的优秀模型以及 Mistral Mixture of Experts (MoE),MoE 也称 Mixtral-8x7B,该模型在多个公共基准测试中的性能相当或超过了更大的 Llama-2-70B 模型。

 MoE 是一个非常有趣的模型,据传整个 2023 年大模型的带头大哥 GPT-4 就是一个由 16 个子模块组成的 MoE,而这 16 个子模块中的每一个都有 1110 亿个参数(做个对比,GPT-3 的参数量为 1750 亿)。Mixtral-8x7B 的一个显著不同就是这个 8x7B,这里首先, Mixtral-8x7B 是一款混合专家模型(Mixtrue of Experts),由8个拥有 70 亿参数的专家网络组成,对于每个输入 token,都输入两个专家网络进行处理,最后整个序列事实上来源于一系列「不同的两两专家」输出的组合。这里 MoE 方法仅应用于 FFN,因此其总的参数量并非 8*7=56 而是在 40-50B 左右。

入选理由:Mistral 7B 小而强大,并且催生了一系列在其基础上的小模型工作,在这些小模型的基础上,2024 年很有可能将开源模型推广到新的高度
论文题目:Mistral 7B

发表时间:2023 年 10 月 10 日 

七、Orca 2 — “小模型”如何推理?

    《Orca 2: Teaching Small Language Models How to Reason》是一篇面世不久的论文,但是 Orca 2 成功结合了两个漂亮的 idea。第一个是“是否可以从 GPT-4 这样的大模型中提取一些数据来训练小型的模型呢?”,Alpaca (一个在 ChatGPT 输出基础上微调 Llama 模型的方法)实现了这种想法,具体而言由四步组成:

1、构建任务种子池,包含一组由人工编写的指令与示例

2、使用预训练的模型如 ChatGPT 确定任务类别

3、给定新指令,输入 ChatGPT 获得回复

4、将回复添加到任务种子池并进行过滤 

而第二个想法则是“高质量数据对于微调非常重要”,例如论文《LIMA: Less Is More for Alignment》给出了一个由人类生成的高质量数据集,仅仅包含一千个示例但是微调时却超越了在五万条由 ChatGPT 生成的示例中的微调结果。 

结合这两个想法,Orca 2 想完成的事呼之欲出,Orca 2 旨在向

7B 或 13B 的小模型“教授”各种推理技术并且帮助他们确定完全每项任务所应该使用的最佳策略,而实现方式则是从大模型中索取“解题思路”。这种方法使 Orca 2 的性能明显优于同尺寸的模型,甚至达到了与其 5-10 倍大的模型相当的结果。

入选理由:尽管刚刚提出,但是 Orca 2 有可能为我们展现它在“改进的训练信号和方法使得小模型实现更强的推理能力”上的巨大潜力
论文题目:Orca 2: Teaching Small Language Models How to Reason 

发表时间:2023 年 11 月 18 日

八、CNN vs Transformer — CNN 也不弱于 ViT

    接下来三篇从大模型转向计算机视觉领域,首当其冲是 DeepMind 的这篇短短五页的《ConvNets Match Vision Transformers at Scale》

    深度学习的成功最早就来源于卷积神经网络,但是伴随着 ViT 的出现卷积逐渐没落,在视觉大模型的领域 ViT 独步天下,卷积神经网络逐渐被认为只能处理小型或中等规模数据集的任务。但是,DeepMind 的这篇工作相当“反直觉”的证明,当能够访问足够大的数据集时,卷积神经网络事实上可以与 ViT 竞争

在实验中,通过使用高达 11 万个 TPU 小时的计算,论文对 ViT 和 CNN 进行了公平的比较。而结果是,当 CNN 使用类似于 ViT 通常使用的计算时间进行预训练时,它们完全可以匹敌 ViT 的性能。 

入选理由:正本清源,这篇论文让 CNN 与 ViT 来了一场公平的对决,最终证明在同等计算条件下, CNN 也不弱于 ViT
论文题目:ConvNets Match Vision Transformers at Scale

发表时间:2023 年 10 月 25 日

九、SAM — 分割一切!

    今年上半年非常火热的由 Meta 发布的图像分割里程碑式的工作《Segment Anything》,这个被命名为 SAM 的模型可以在零样本的情况下真正如论文名字一样“分割一切”,作为一个通用模型,SAM 被认为已经学会了关于物体的一般概念,哪怕遇到训练中没有遇到的物体或图像,SAM 都可以“泛化”为此物体生成 mask,让大家直呼 CV 不存在了!

 SAM 主要由三个组件组成,分别是:

1、图像编码器:使用预训练 ViT 作为图像编码器

2、Prompt 编码器:对输入的由点框组成的 Prompt 进行编码,使用 CLIP 与卷积实现

3、解码器:将图像嵌入,提示嵌入与输出标记进行解码,使用 Transformer 架构中的 Decoder 模块。

入选理由:CV 领域的 GPT-3 时刻!CV 不存在了
论文题目:Segment Anything

发表时间:2023 年 4 月 5 日

十、Emu Video — 令人印象深刻的文本到视频生成模型

    依然来自 Meta,这篇《Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning》提出了一个令人印象深刻的文本转视频模型。

    Emu Video 在目前最大的一个文本到视频的数据集中进行训练,其中包含近 1000 万个样本,实验结果表明,Emu Video 生成视频的语义一致性超过 86%,质量一致性超过 91%

 

与之前的一众文本转视频方法相比,Emu Video 的设置相当简单,整个生成过程分为两步:首先使用扩散模型从文本生成图像,然后再根据文本+生成的图像创建视频,使用的模型依然是扩散模型。

通过将文本到视频的过程中间添加图像的阶段,从而简化了这一任务的难度。而在实际推理时,在给定一段文本后,Emu Video 先用文本到图像部分生成第一帧图像,再输入该图像及文本到视频部分生成完整的视频。

入选理由:2024 年文本到视频模型可能会相当流行,Emu Video 将会是一个承前启后的作品!
论文题目:Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning

发表时间:2023 年 11 月 17 日

十一、总结

最后当然,这十篇论文只是 Sebastian Raschka 博士主观性很强的“评选与推荐”,可以看到这十篇还是更多关注在语言模型之中的进展,而对视觉等其他领域关注较少。也有许多论文比如 Medprompt、思维树 Tree of Thoughts 等等没有被提到。


需要顶刊论文的可以关注vx工粽号:AI技术星球 回复:211 获取

需要论文指导发刊的 【AI交叉学科、SCI、CCF-ABC、期刊、会议、本硕博论文、在职论文指导、Kaggle比赛指导、 润色发刊等 】

白嫖100G入门到进阶AI资源包+kaggle竞赛+就业指导+技术问题答疑

1、超详细的人工智能学习路

2、OpenCV、Pytorch、YOLO等教程

3、人工智能快速入门教程(Python基础、数学基础、NLP)附源码课件数据

4、机器学习算法+深度学习神经网络基础教程

5、人工智能必看书籍(花书、西瓜书、蜥蜴书等)

6、顶刊论文及行业报告

7、SCI论文攻略 及润色等  

 

 

 

 

  • 18
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值