前两天,科技新闻网站VentureBeat上放出了Ben Dickson的一篇文章,名字就叫“Meta 携 Megalodon LLM 挑战 Transformer 架构”。
这篇文章就是聊聊Meta用的这个叫Megalodon LLM巨齿鲨的大模型,说是它能节省内存,还挑战Transformer架构呢。咱们一起来看看文章都讲了啥。
由 Meta 和 南加利福尼亚大学 的那些聪明的研究人员提出了一种新的机器学习 (ML) 模型,它的目标就是解决 Transformer 架构的一些棘手问题。
这个 Transformer 架构,是一种深度学习架构,催生了大型语言模型 (LLMs) 的新时代。
这个新模型叫 Megalodon(巨齿鲨),它可以让语言模型把处理的上下文窗口扩展到数百万个令牌,而不会把你的内存塞满。
实验室的数据显示,Megalodon 在处理大量文本的表现比同类型大小的 Transformer 模型还要强。Megalodon 是一系列新模型中的最新一款,被看作 Transformer 的新接班人。
长上下文窗口
“上下文窗口”这个词,其实就是模型一次能处理的令牌数量。如果上下文窗口变大,LLMs 就能进行更长时间的对话,处理更长的文档,学习的东西也更多。
但是,要想把 Transformer 的上下文窗口扩大,付出的代价可不小。
Transformer 的问题在于它有“二次复杂度”,这意味着如果你把输入的大小翻倍,处理输入所需的内存和计算时间就会增加四倍。
这是因为 Transformer 里面有个自我注意机制,它会把输入序列中的每个元素和其他所有元素比较一下。
Meta 的 Megalodon 模型采用了一种新技术,叫做移动平均装备门控注意 (MEGA),这个技术在 2022 年才首次提出。
MEGA 修改了注意机制,大大降低了模型的复杂性,让 LLM 能处理更长的输入,而不会让内存和计算需求暴涨。
MEGA 也用了经过实践检验的指数移动平均 (EMA) 技术,这帮助模型在本地和远距离的令牌之间找到正确的重点。
这就像帮助模型在向上下文窗口输入更多信息时保持其连贯性。
Megalodon
Megalodon 对 MEGA 进行了一些改进,对架构做了一些关键的修改,使其的性能与原始 Transformer 模型中使用的全注意力机制差不多。
Megalodon 还采用了“块式注意力”,它把输入序列划分成固定大小的块,这样就把模型的复杂性从二次方降低到线性了。
块式注意力还可以加入一个额外的并行层,加速模型训练。
研究人员在 2 万亿个令牌上训练了一个具有 70 亿参数的 Megalodon 版本,然后和 Llama-2-7B、13B 和其他模型做了个比较。
他们的实验表明,Megalodon-7B 在训练困惑度和下游基准测试中,“明显优于用于训练 LLAMA2-7B 的 Transformer 的最新变种。”
在某些任务中,Megalodon-7B 的性能和 Llama-2-13B 差不多。
在 4,000 令牌的上下文窗口下,Megalodon 的速度比 Llama-2 慢一点,但当上下文长度扩展到 32,000 个令牌时,由于其计算效率,Megalodon 表现就比 Llama-2 强多了。
此外,研究人员还声称,他们的实验结果表明,Megalodon 可以处理无限长度的序列。
研究人员还在其他数据模态的小型和中型实验中取得了不错的结果,他们还计划在后期的工作中把 Megalodon 适应到多模态设置。
研究人员已经把 Megalodon 的代码放到了 GitHub 上,还附带了 MIT 许可,这意味着你可以随便修改,用于商业目的,没有任何限制。
Transformers 还是老大
科学家们一直在找能替代 Transformer 的新架构。
像 Mamba 架构这样的例子值得一提,它现在已经在 AI21 Labs Jamba 中商业化部署。
另一个可能有前途的架构是 液态神经网络,这是一种由 MIT 的研究人员开发的用于处理任何类型序列数据的通用深度学习架构。
但现在,Transformer 还是语言模型的老大。虽然 Meta 正在探索像 Megalodon 这样的新架构,但它还在努力改进其 Transformer 模型,并刚刚发布了 Llama-3,这是其开源 LLM 的最新版本。
Transformer 的竞争对手面临的一个问题是需要硬件和软件工具。现在有一个大型的库和工具生态系统用于训练、微调和定制 Transformer 模型,适用于不同的应用和硬件设备。
同时,研究人员已经开发了优化 Transformer LLM 在内存受限设备上性能的底层软件代码。替代品还需要跟上这些进展。
同时,其他研究人员还在修改 Transformer 架构,以减少其内存和计算需求。例如,Infini-attention,这是 Google 研究人员最近的一篇论文,旨在为 Transformer 模型提供无限的上下文窗口,而不增加内存和计算复杂性。
现在的先进模型可以处理数十万个令牌的输入。
但是,人工智能研究正在快速发展。
当 Transformer 论文在 2017 年发布时,很少有人想到它会产生如此大的影响。
谁知道呢,可能有一个新模型会在自己的游戏中击败 Transformer。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取==🆓