大模型是不是有点太多了?

上个月,AI业界爆发了一场“动物战争”。

一方是Meta推出的Llama(美洲驼),由于其开源的特性,历来深受开发者社区的欢迎。NEC(日本电气)在仔细钻研了Llama论文和源代码后,迅速“自主研发”出了日语版ChatGPT,帮日本解决了AI卡脖子难题。

另一方则是一个名为Falcon(猎鹰)的大模型。今年5月,Falcon-40B问世,力压美洲驼登顶了“开源LLM(大语言模型)排行榜”。

该榜单由开源模型社区Hugging face制作,提供了一套测算LLM能力的标准,并进行排名。排行榜基本上就是Llama和Falcon轮流刷榜。

Llama 2推出后,美洲驼家族扳回一城;可到了9月初,Falcon推出了180B版本,又一次取得了更高的排名。

Falcon以68.74分力压Llama 2

有趣的是,“猎鹰”的开发者不是哪家科技公司,而是位于阿联酋首都阿布扎比的科技创新研究所。政府人士表示,“我们参与这个游戏是为了颠覆核心玩家”[4]。

180B版本发布第二天,阿联酋人工智能部长奥马尔就入选了《时代周刊》评选的“AI领域最具影响力的100人”;与这张中东面孔一同入选的,还有“AI教父”辛顿、OpenAI的阿尔特曼,以及李彦宏。

阿联酋人工智能部长

如今,AI领域早已步入了“群魔乱舞”的阶段:但凡有点财力的国家和企业,或多或少都有打造“XX国版ChatGPT”的计划。仅在海湾国家的圈子内,已不止一个玩家——8月,沙特阿拉伯刚刚帮国内大学购买了3000多块H100,用于训练LLM。

金沙江创投朱啸虎曾在朋友圈吐槽道:“当年看不起(互联网的)商业模式创新,觉得没有壁垒:百团大战、百车大战、百播大战;没想到硬科技大模型创业,依然是百模大战…”

说好的高难度硬科技,怎么就搞成一国一模亩产十万斤了?

Transformer吞噬世界

美国的初创公司、中国的科技巨擘、中东的石油大亨能够逐梦大模型,都得感谢那篇著名的论文:《Attention Is All You Need》。

2017年,8位谷歌的计算机科学家在这篇论文中,向全世界公开了Transformer算法。这篇论文目前是人工智能历史上被引数量第三高的论文,Transformer的出现则扣动了此轮人工智能热潮的扳机。

无论当前的大模型是什么国籍,包括轰动世界的GPT系列,都是站在了Transformer的肩膀上。

在此之前,“教机器读书”曾是个公认的学术难题。不同于图像识别,人类在阅读文字时,不仅会关注当前看到的词句,更会结合上下文来理解。

比如“Transformer”一词其实可翻译成“变形金刚”,但本文读者肯定不会这么理解,因为大家都知道这不是一篇讲好莱坞电影的文章。

但早年神经网络的输入都彼此独立,并不具备理解一大段文字、甚至整篇文章的能力,所以才会出现把“开水间”翻译成“open water room”这种问题。

直到2014年,在谷歌工作、后来跳槽去了OpenAI的计算机科学家伊利亚(Ilya Sutskever)率先出了成果。他使用循环神经网络(RNN)来处理自然语言,使谷歌翻译的性能迅速与竞品拉开了差距。

RNN提出了“循环设计”,让每个神经元既接受当前时刻输入信息,也接受上一时刻的输入信息,进而使神经网络具备了“结合上下文”的能力。

循环神经网络

RNN的出现点燃了学术圈的研究热情,日后Transformer的论文作者沙泽尔(Noam Shazeer)也一度沉迷其中。然而开发者们很快意识到,RNN存在一个严重缺陷:

该算法使用了顺序计算,它固然能解决上下文的问题,但运行效率并不高,很难处理大量的参数。

RNN的繁琐设计,很快让沙泽尔感到厌烦。因此从2015年开始,沙泽尔和7位同好便着手开发RNN的替代品,其成果便是Transformer[8]。

Noam Shazeer

相比于RNN,Transformer的变革有两点:

一是用位置编码的方式取代了RNN的循环设计,从而实现了并行计算——这一改变大大提升了Transformer的训练效率,从而变得能够处理大数据,将AI推向了大模型时代;二是进一步加强了上下文的能力。

随着Transformer一口气解决了众多缺陷,它渐渐发展成了NLP(自然语言处理)的唯一解,颇有种“天不生Transformer,NLP万古如长夜”的既视感。连伊利亚都抛弃了亲手捧上神坛的RNN,转投Transformer。

换句话说,Transformer是如今所有大模型的祖师爷,因为他让大模型从一个理论研究问题,变成了一个纯粹的工程问题。

LLM技术发展树状图,灰色的树根就是Transformer[9]

2019年,OpenAI基于Transformer开发出了GPT-2,一度惊艳了学术圈。作为回应,谷歌迅速推出了一个性能更强的AI,名叫Meena。

和GPT-2相比,Meena没有底层算法上的革新,仅仅是比GPT-2多了8.5倍的训练参数、14倍的算力。Transformer论文作者沙泽尔对“暴力堆砌”大受震撼,当场写了篇“Meena吞噬世界”的备忘录。

Transformer的问世,让学术界的底层算法创新速度大大放缓。数据工程、算力规模、模型架构等工程要素,日渐成为AI竞赛的重要胜负手,只要有点技术能力的科技公司,都能手搓一个大模型出来。

因此,计算机科学家吴恩达在斯坦福大学做演讲时,便提到一个观点:“AI是一系列工具的集合,包括监督学习、无监督学习、强化学习以及现在的生成式人工智能。所有这些都是通用技术,与电力和互联网等其他通用技术类似。[10]”

OpenAI固然仍是LLM的风向标,但半导体分析机构Semi Analysis认为,GPT-4的竞争力源自工程解决方案——如果开源,任何竞争对手都能迅速复现。

该分析师预计,或许用不了太久,其他大型科技公司也能打造出同等于GPT-4性能的大模型[11]。

建在玻璃上的护城河

当下,“百模大战”已不再是一种修辞手法,而是客观现实。

相关报告显示,截止至今年7月,国内大模型数量已达130个,高于美国的114个,成功实现弯道超车,各种神话传说已经快不够国内科技公司取名的了[12]。

而在中美之外,一众较为富裕的国家也初步实现了“一国一模”:除了日本与阿联酋,还有印度政府主导的大模型Bhashini、韩国互联网公司Naver打造的HyperClova X等等。

眼前这阵仗,仿佛回到了那个漫天泡沫、“钞能力”对轰的互联网拓荒时代。

正如前文所说,Transformer让大模型变成了纯粹的工程问题,只要有人有钱有显卡,剩下的就丢给参数。但入场券虽不难搞,也并不意味着人人都有机会成为AI时代的BAT。

开头提到的“动物战争”就是个典型案例:Falcon虽然在排名上力压美洲驼,但很难说对Meta造成了多少冲击。

众所周知,企业开源自身的科研成果,既是为了与社会大众分享科技的福祉,同样也希望能调动起人民群众的智慧。随着各个大学教授、研究机构、中小企业不断深入使用、改进Llama,Meta可以将这些成果应用于自己的产品之中。

对开源大模型而言,活跃的开发者社群才是其核心竞争力。

而早在2015年组建AI实验室时,Meta已定下了开源的主基调;扎克伯格又是靠社交媒体生意发的家,更是深谙于“搞好群众关系”这件事。

譬如在10月,Meta就专程搞了个“AI版创作者激励”活动:使用Llama 2来解决教育、环境等社会问题的开发者,将有机会获得50万美金的资助。

时至今日,Meta的Llama系列俨然已是开源LLM的风向标。

截至10月初,Hugging face的开源LLM排行榜Top 10中,共有8个都是基于Llama 2所打造的,均使用了它的开源协议。仅在Hugging face上,使用了Llama 2开源协议的LLM已经超过了1500个[13]。

截止至10月初,Hugging face上排名第一的LLM,基于Llama 2打造

当然,像Falcon一样提高性能也未尝不可,但时至今日,市面上大多数LLM仍和GPT-4有着肉眼可见的性能差距。

例如前些日子,GPT-4就以4.41分的成绩问鼎AgentBench测试头名。AgentBench标准由清华大学与俄亥俄州立大学、加州大学伯克利分校共同推出,用于评估LLM在多维度开放式生成环境中的推理能力和决策能力,测试内容包括了操作系统、数据库、知识图谱、卡牌对战等8个不同环境的任务。

测试结果显示,第二名的Claude仅有2.77分,差距仍较为明显。至于那些声势浩大的开源LLM,其测试成绩多在1分上下徘徊,还不到GPT-4的1/4[14]。

AgentBench测试结果

要知道,GPT-4发布于今年3月,这还是全球同行追赶了大半年之后的成绩。而造成这种差距的,是OpenAI“智商密度”极高的科学家团队与长期研究LLM积累下来的经验,因此可以始终遥遥领先。

也就是说,大模型的核心能力并不是参数,而是生态的建设(开源)或纯粹的推理能力(闭源)。

随着开源社区日渐活跃,各个LLM的性能可能会趋同,因为大家都在使用相似的模型架构与相似的数据集。

另一个更直观的难题是:除了Midjourney,好像还没有哪个大模型能赚到钱。

价值的锚点

今年8月,一篇题为“OpenAI可能会于2024年底破产”的奇文引起了不少关注[16]。文章主旨几乎能用一句话概括:OpenAI的烧钱速度太快了。

文中提到,自从开发ChatGPT之后,OpenAI的亏损正迅速扩大,仅2022年就亏了约5.4亿美元,只能等着微软投资人买单。

文章标题虽耸人听闻,却也讲出了一众大模型提供商的现状:成本与收入严重失衡。

过于高昂的成本,导致目前依靠人工智能赚了大钱的只有英伟达,顶多再加个博通。

据咨询公司Omdia预估,英伟达在今年二季度卖出了超30万块H100。这是一款AI芯片,训练AI的效率奇高无比,全世界的科技公司、科研机构都在抢购。如果将卖出的这30万块H100叠在一起,其重量相当于4.5架波音747飞机[18]。

英伟达的业绩也顺势起飞,同比营收暴涨854%,一度惊掉了华尔街的下巴。顺带一提,目前H100在二手市场的价格已被炒到4-5万美金,但其物料成本仅有约3000美金出头。

高昂的算力成本已经在某种程度上成为了行业发展的阻力。红杉资本曾做过一笔测算:全球的科技公司每年预计将花费2000亿美金,用于大模型基础设施建设;相比之下,大模型每年最多只能产生750亿美金的收入,中间存在着至少1250亿美金的缺口[17]。

黄仁勋与H100

另外,除了Midjourney等少数个例,大部分软件公司在付出了巨大的成本后,还没想清楚怎么赚钱。尤其是行业的两位带头大哥——微软和Adobe都走的有些踉跄。

微软和OpenAI曾合作开发了一个AI代码生成工具GitHub Copilot,虽然每个月要收10美元月费,但由于设施成本,微软反而要倒亏20美元,重度用户甚至能让微软每月倒贴80美元。依此推测,定价30美元的Microsoft 365 Copilot,搞不好亏的更多。

无独有偶,刚刚发布了Firefly AI工具的Adobe,也迅速上线了一个配套的积分系统,防止用户重度使用造成公司亏损。一旦有用户使用了超过每月分配的积分,Adobe就会给服务减速。

要知道微软和Adobe已经是业务场景清晰,拥有大量现成付费用户的软件巨头。而大部分参数堆上天的大模型,最大的应用场景还是聊天。

不可否认的是,如果没有OpenAI和ChatGPT的横空出世,这场AI革命或许压根不会发生;但在当下,训练大模型所带来的价值恐怕得打一个问号。

而且,随着同质化竞争加剧,以及市面上的开源模型越来越多,留给单纯的大模型供应商的空间或许会更少。

iPhone 4的火爆不是因为45nm制程的A4处理器,而是它可以玩植物大战僵尸和愤怒的小鸟。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

123?spm=1001.2014.3001.5501)这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

  • 13
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值