LLM 大语言模型的现状:沿着S型曲线发展

人工智能社区正在拥抱S型曲线——在最初的快速增长之后,随着我们遇到自然限制,进展开始趋于平缓。

译自 The Current State of LLMs: Riding the Sigmoid Curve,作者 Patrick McFadin。

如果你最近一直在关注人工智能领域,你可能已经注意到了一种转变。一年前的无拘无束的乐观情绪已经让位于更加沉稳、现实的展望。作为一名周末大部分时间都沉浸在人工智能代码中,并为 LangChainLlamaIndex 等项目做出贡献的人,我亲眼目睹了这种转变。

最近,我参加了两个 AI 会议——AI 质量大会和 AI 工程师世界博览会——人们的情绪变化是显而易见的。这感觉像是 人工智能之旅 的一个重要里程碑,我想分享我对我们身处何处以及我们要去往何处的想法。

S 型曲线:对人工智能增长的全新视角

还记得我们曾经认为人工智能增长呈指数级增长,准备将我们所有人抛在身后吗?好吧,现实情况并非如此。人工智能社区现在正在采用一种不同的模型:S 型曲线。这种 S 形曲线表明,在最初的快速增长阶段之后,随着我们遇到自然限制,进展开始趋于平缓。

在这里插入图片描述

为什么视角会发生转变?这归结于我们在 大型语言模型 开发中面临的限制。

三重威胁:数据、能源和经济

首先是数据可用性。互联网虽然庞大,但高质量数据的数量仍然有限。当然,像 OpenAI 这样的公司正在争先恐后地达成协议,以获取更多数据来训练 GPT-5,但当我们需要 GPT-6 的 10 倍数据时会发生什么?合成数据将有助于弥补一些差距,但这很难解决。

然后是能源和基础设施成本。训练这些庞大的模型 需要惊人的计算能力。我们谈论的是一排排的 GPU 不断运行,产生的热量足以温暖一个小镇。这不仅昂贵,而且正在达到收益递减的临界点。在某些情况下,资源可用性限制了甚至可能实现的目标。位于田纳西州孟菲斯的 新的 xAI 数据中心 每天需要惊人的 100 万加仑水和 150 兆瓦电力。研究人员初创公司 正在寻求消除对 GPU 的需求,但这还处于早期阶段。

最后,还有经济可行性的问题。目前,大型前沿模型正在由财力雄厚的云提供商补贴。但随着 LLM 的真实成本变得明朗,我们可能会看到这些 模型的开发和部署方式 发生转变。训练一个前沿模型是一个 数十亿美元的俱乐部,需要英伟达首席执行官黄仁勋的私人手机号码。

人工智能信任危机

如果这些限制还不够,我们还面临着所谓的 “人工智能信任危机”。这是 AI 工程师大会上的一个热门话题。问题是什么?从设计上来说,LLM 往往会变得……有创意。这对于创作下一部伟大的美国小说来说很棒,但对于自动化关键业务流程来说却不行。这种脱节是关于人工智能的幻想思维,以及对实施缺乏了解。LLM 是一个概率模型;在某些情况下,它们会迷路。

我亲眼目睹了一些客户的做法:试图通过将大量数据输入 LLM 来替换分析流程,或者更糟糕的是,试图通过让 LLM 无监督地工作来替换整个工作类别。当然,这些想法都没有成功,让发起者感到沮丧,并对新 AI 的能力持负面看法。即使是内部人士也意识到,Transformer 架构 还不够,我们正在所有模型中都达到 GPT4 级别的性能。我们距离可信的自动化或每个人最喜欢的流行词 AGI(通用人工智能)只有一到两次突破。

进入低谷:来自 Gartner hype cycle 的证据

如果你想知道我们在 AI 过山车的哪个位置,那就看看 Gartner hype cycle。这个可靠的工具为我们提供了技术成熟度和采用率的直观表示。由于许可原因,我无法嵌入 Gartner AI hype cycle 的图表,但我可以链接到 演示,Gartner 的人做了很多图形。花几分钟时间看看你最喜欢的最新技术如何排队是值得的。

根据 Gartner 在 AI hype cycle 中所说,基础模型和生成式 AI 正在进入“幻灭的低谷”。不要被这个名字所迷惑——这不是一件坏事。这是任何技术成熟的必要步骤。早期采用者让每个人都兴奋起来,而高级用户发现了许多早期的好处。后期采用者开始比较更成熟的技术,并发现尖锐的边缘,宣称它“全是炒作”(我指的是你,企业)。最终,会有诸如支持合同、架构图以及大量产品之类的东西,使这一切变得更加可靠和安全。啊,启蒙的曙光。

S 型曲线的希望

现在,在你开始认为一切都黯淡无光之前,请让我向你保证,这个 S 型曲线和“幻灭的低谷”有一些重大的好处。如果你准备相信这个过程,这里有一些让你感到高兴的事情。

  • 适应时间——随着变化速度的放缓,组织有机会喘口气,并弄清楚如何有效地使用这些工具。不再需要不断地争先恐后地跟上最新的模型,而最新的模型会使上周的工作过时。这就是让你不会陷入无休止的 POC 并最终交付一些东西的原因。
  • 改进的风险管理——通过清楚地了解 AI 的能力和局限性,公司可以对在哪里以及如何实施这些技术做出更明智的决策。即使是一点点 AI 也能对你的产品和最终用户的生产力产生惊人的影响。
  • 战略规划机会——随着炒作的迷雾消散,前进的道路变得更容易看到。公司可以开始规划他们的 AI 战略,对未来的能力有更现实的看法。不久前,人们对解雇整个软件工程团队或所有营销人员有一些疯狂的猜测。AI 会做所有事情,对吧?现在,很明显,AI 是这些职业中的一项新技能,它提高了生产力并增加了新的功能。相应地进行规划。

当前的游戏状态:从“哇”到“如何”

那么,这让我们处于什么位置?如果我们看看 Gartner hype cycle,我们会发现,虽然基础模型和 GenAI 正在进入低谷,但其他 AI 技术处于不同的阶段。例如,知识图谱终于从低谷中走了出来,这可能是由于它们在 AI 应用中的有用性而推动的。

关键的要点是什么?AI 不会消失,但它正在进入一个更加衡量、现实的进步阶段。我们正在从“哇”阶段过渡到“如何”阶段:我们如何真正地实施这些技术,以增加真正的价值?在我吸收了我们当前状态之后,我的建议是:放松身心,适应我们今天拥有的东西。如果你正在构建一个聊天机器人,你应该以某种方式提高用户的生产力。否则,你只是在进行更多 AI 研究。

展望未来

当我们沿着这个 S 型曲线前进时,我们可以期待什么?我相信我们将迎来一个整合和改进的时期。模型之间的差距正在缩小,许多模型的质量都达到了 GPT-4 级。这对高级用户来说是个好消息,他们现在可以建立在更稳定的基础之上。

我们也可能看到向更专注、更高效的模型转变。 “更大总是更好”的时代即将结束,取而代之的是一种更细致入微的方法,它平衡了能力和效率。 虽然我们可能没有以惊人的速度朝着 AGI 迈进,但我们正在进入一个可能更加令人兴奋的阶段。这是一个实用创新的时代,人工智能对现实世界的影响将开始变得清晰。所以,各位人工智能爱好者,系好安全带。旅程可能比预期更平稳,但远未结束。

如何系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

事实上,抢你饭碗的不是AI,而是会利用AI的人。

科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?

与其焦虑……

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)

在这里插入图片描述

LLM大模型学习路线

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。

  • 内容

    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
    • L1.4.1 知识大模型
    • L1.4.2 生产大模型
    • L1.4.3 模型工程方法论
    • L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。

  • 内容

    • L2.1 API接口
    • L2.1.1 OpenAI API接口
    • L2.1.2 Python接口接入
    • L2.1.3 BOT工具类框架
    • L2.1.4 代码示例
    • L2.2 Prompt框架
    • L2.3 流水线工程
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。

  • 内容

    • L3.1 Agent模型框架
    • L3.2 MetaGPT
    • L3.3 ChatGLM
    • L3.4 LLAMA
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。

  • 内容

    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

  • 12
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值