AI Agent:基于大模型的自主智能体

什么是AI Agent

AI Agent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统 的人工智能,AI Agent 具备通过独立思考、调用工具去逐步完成给定目标的能力。比如,告诉 AI Agent 帮忙下单一份外卖,它就可以直接调用 APP 选择外卖,再调用支付程序下单支付,无需人 类去指定每一步的操作。Agent 的概念由 Minsky 在其 1986 年出版的《思维的社会》一书中提出, Minsky 认为社会中的某些个体经过协商之后可求得问题的解,这些个体就是 Agent。他还认为 Agent 应具有社会交互性和智能性。Agent 的概念由此被引入人工智能和计算机领域,并迅速成为 研究热点。但苦于数据和算力限制,想要实现真正智能的 AI Agents 缺乏必要的现实条件。

Hyperwrite 研发的 AI Agent 个人助理插件实现自动预订航班机票

大语言模型和 AI Agent 的区别在于 AI Agent 可以独立思考并做出行动,和 RPA 的区别在于它能够处理未知环境信息。ChatGPT 诞生后,AI 从真正意义上具备了和人类进行多轮对话的能力,并且能针对相应问题给出具体回答与建议。随后各个领域的“Copilot”推出,如 Microsoft 365 Copilot、GitHub Copilot、Adobe Firefly 等,让 AI 成为了办公、代码、设计等场景的“智能副驾驶”。AI Agent 和大模型的区别在于,大模型与人类之间的交互是基于 prompt 实现的,用户 prompt 是否清晰明确会影响大模型回答的效果,例如ChatGPT 和这些 Copilot 都需要明确任务才能得到有用的回答。而 AI Agent 的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动,它会根据给定任务详细拆解出每一步的计划步骤,依靠来自外界的反馈和自主思考,自己给自己创建 prompt,来实现目标。如果说 Copilot 是“副驾驶”,那么 Agent 则可以算得上一个初级的“主驾驶”。和传统的 RPA 相比,RPA 只能在给定的情况条件下,根据程序内预设好的流程来进行工作的处理,在出现大量未知信息、难以预测的环境中时,RPA 是无法进行工作的,AI Agent 则可以通过和环境进行交互,感知信息并做出对应的思考和行动。

AI Agent 的工作流程

Agent 的最终发展目标:通用人工智能 AGI

AI Agent并不是一个新兴的概念,早在多年前就已在人工智能领域有了研究。例如 2014 年由 DeepMind 推出的引发全球热议的围棋机器人 AlphaGo,也可以看做是 AI Agent 的一种。与之类似的还有 2017 年 OpenAI 推出的用于玩《Dota2》的 OpenAI Five,2019 年 DeepMind 公布用于玩《星际争霸 2》的 AlphaStar 等,这些 AI 都能根据对实时接收到的信息的分析来安排和规划下一步的操作,均满足 AI Agent 的基本定义。当时的业界潮流是通过强化学习的方法来对 AI Agent进行训练,主要应用场景是在游戏这类具有对抗性、有明显输赢双方的场景中。但如果想要在真实世界中实现通用性,基于当时的技术水平还难以实现。

AlphaGo 战胜柯洁

OpenAI Five 战胜《Dota 2》世界冠军

大语言模型的浪潮推动了 AI Agent 相关研究快速发展。AI Agent 需要做到能够像人类一样进行交互,大语言模型强大的能力为 AI Agent 的突破带来了契机。大模型庞大的训练数据集中包含了大量人类行为数据,为模拟类人的交互打下了坚实基础;另一方面,随着模型规模不断增大,大模型涌现出了上下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。将大模型作为AI Agent 的核心大脑,就可以实现以往难以实现的将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。大模型的快速发展大幅推动了 AI Agent 的发展。

大语言模型浪潮

通往AGI 的道路仍需探索,AI Agent 是当前的主要路线。在大模型浪潮席卷全球之时,很多人认为大模型距离真正的通用人工智能 AGI 已经非常接近,很多厂商都投入了基础大模型的研究。但经过了一段时间后,大家对大模型真实的能力边界有了清晰的认知,发现大模型仍存在大量的问题如幻觉、上下文容量限制等,导致其无法直接通向 AGI,于是 AI Agent 成为了新的研究方向。通过让大模型借助一个或多个 Agent 的能力,构建成为具备自主思考决策和执行能力的智能体,来继续实现通往 AGI 的道路。OpenAI 联合创始人 Andrej Karpathy 在一次开发者活动中讲到, OpenAI 内部对 AI Agents 非常感兴趣,AI Agent 将是未来 AI 的前沿方向。扎克伯格也在 Meta 的一季度财报电话会上提到,Meta 将会把 AI Agents 介绍给数十亿用户。

研究 AI Agent 的最终目标是通向 AGI

AI Agent 可以类比为自动驾驶的 L4 阶段,距离真正实现仍有差距。根据甲子光年报告,AI 与人 类的协作程度可以和自动驾驶等级进行类比。像 ChatGPT 这类对话机器人可以类比 L2 级别自动 驾驶,人类可以向 AI 寻求意见,但 AI 不直接参与工作;Copilot 这类副驾驶工具可以类比为L3 级 别的自动驾驶,人类和 AI 共同协作完成工作,AI 根据 prompt 生成初稿,人类仅需进行修改调整;而 Agent 则进一步升级为 L4,人类给定一个目标,Agent 可以自己完成任务规划、工具调用等。但就如同 L4 级别的自动驾驶还未真正实现一样,AI Agents 容易想象和演示,却难以实现,AI Agents 的真正应用还在不确定的未来。

AI Agent 拆解:大模型、规划、记忆与工具

一个基于大模型的 AI Agent 系统可以拆分为大模型、规划、记忆与工具使用四个组件部分。6 月, OpenAI 的应用研究主管Lilian Weng 撰写了一篇博客,认为 AI Agent 可能会成为新时代的开端。她提出了 Agent = LLM + 规划技能+ 记忆+ 工具使用的基础架构,其中 LLM 扮演了 Agent 的“大 脑”,在这个系统中提供推理、规划等能力。

由 LLM 驱动的自主智能体系统的架构

大模型+规划:Agent 的“大脑”,通过思维链能力实现任务分解

LLM 具备逻辑推理能力,Agent 可以将 LLM 的逻辑推理能力激发出来。当模型规模足够大的时候,LLM 本身是具备推理能力的。在简单推理问题上,LLM 已经达到了很好的能力;但在复杂推理问题上,LLM 有时还是会出现错误。事实上,很多时候用户无法通过LLM 获得理想的回答,原因在于 prompt 不够合适,无法激发 LLM 本身的推理能力,通过追加辅助推理的 prompt,可以大幅提升 LLM 的推理效果。在《Large language models are zero-shot reasoners》这篇论文的测试中,在向 LLM 提问的时候追加“Let’s think step by step”后,在数学推理测试集 GSM8K 上的推理准确率从 10.4%提升到了 40.7%。而 Agent 作为智能体代理,能够根据给定的目标自己创建合适的 prompt,可以更好地激发大模型的推理能力。

通过调整 prompt 可以提升大模型推理效果

对于需要更多步骤的复杂任务,Agent 能够调用 LLM 通过思维链能力实现任务分解与规划。在AI Agent 的架构中,任务分解规划的过程是基于大模型的能力来实现的。大模型具备思维链(Chain of Thoughts, CoT)能力,通过提示模型“逐步思考”,利用更多的计算时间来将困难任务分解为更小,更简单的步骤,降低每个子任务的规模。

AI Agent 的反思框架

通过反思与自省框架,Agents 可以不断提升任务规划能力。AI Agent 可以对过去的行为进行自我批评和反思,从错误中学习,并为未来的步骤进行完善,从而提高最终结果的质量。自省框架使 Agents 能够修正以往的决策、纠正之前的失误,从而不断优化其性能。在实际任务执行中,尝试和错误是常态,反思和自省两个框架在这个过程中起到了核心作用。

记忆:用有限的上下文长度实现更多的记忆

对 AI 智能体系统的输入会成为系统的记忆,与人类的记忆模式可实现一一映射。记忆可以定义为用于获取、存储、保留以及随后检索信息的过程。人脑中有多种记忆类型,如感觉记忆、短期记忆和长期记忆。而对于 AI Agent 系统而言,用户在与其交互过程中产生的内容都可以认为是 Agent 的记忆,和人类记忆的模式能够产生对应关系。感觉记忆就是作为学习嵌入表示的原始输入,包括文本、图像或其他模态;短期记忆就是上下文,受到有限的上下文窗口长度的限制;长期记忆则可以认为是 Agent 在工作时需要查询的外部向量数据库,可通过快速检索进行访问。目前 Agent 主要是利用外部的长期记忆,来完成很多的复杂任务,比如阅读 PDF、联网搜索实时新闻等。任务与结果会储存在记忆模块中,当信息被调用时,储存在记忆中的信息会回到与用户的对话中,由此创造出更加紧密的上下文环境。

人类记忆的分类

人类记忆与 AI Agent 记忆的映射

向量数据库通过将数据转化为向量存储,解决大模型海量知识的存储、检索、匹配问题。向量是 AI 理解世界的通用数据形式,大模型需要大量的数据进行训练,以获取丰富的语义和上下文信息,导致了数据量的指数级增长。向量数据库利用人工智能中的 Embedding 方法,将图像、音视频等 非结构化数据抽象、转换为多维向量,由此可以结构化地在向量数据库中进行管理,从而实现快 速、高效的数据存储和检索过程,赋予了 Agent“长期记忆”。同时,将高维空间中的多模态数 据映射到低维空间的向量,也能大幅降低存储和计算的成本,向量数据库的存储成本比存到神经 网络的成本要低 2 到 4 个数量级。

Embedding 技术和向量相似度计算是向量数据库的核心。Embedding 技术是一种将图像、音视频等非结构化数据转化为计算机能够识别的语言的方法,例如常见的地图就是对于现实地理的 Embedding,现实的地理地形的信息其实远远超过三维,但是地图通过颜色和等高线等来最大化表现现实的地理信息。在通过 Embedding 技术将非结构化数据例如文本数据转化为向量后,就可以通过数学方法来计算两个向量之间的相似度,即可实现对文本的比较。向量数据库强大的检索功能就是基于向量相似度计算而达成的,通过相似性检索特性,针对相似的问题找出近似匹配的结果,是一种模糊匹配的检索,没有标准的准确答案,进而更高效地支撑更广泛的应用场景。

非结构化数据的向量化表征

不同文本在向量空间中的相似度计算

工具:懂得使用工具才会更像人类

AI Agent 与大模型的一大区别在于能够使用外部工具拓展模型能力。懂得使用工具是人类最显著 和最独特的地方,同样地,我们也可以为大模型配备外部工具来让模型完成原本无法完成的工作。ChatGPT 的一大缺点在于,其训练数据只截止到了 2021 年底,对于更新一些的知识内容它无法 直接做出回答。虽然后续 OpenAI 为 ChatGPT 更新了插件功能,能够调用浏览器插件来访问最新 的信息,但是需要用户来针对问题指定是否需要使用插件,无法做到完全自然的回答。AI Agent 则具备了自主调用工具的能力,在获取到每一步子任务的工作后,Agent 都会判断是否需要通过 调用外部工具来完成该子任务,并在完成后获取该外部工具返回的信息提供给 LLM,进行下一步 子任务的工作。OpenAI 也在 6 月为 GPT-4 和 GPT-3.5 更新了函数调用的功能,开发者现在可以 向这两个大模型描述函数,并让模型智能地选择输出包含调用这些函数的参数的 JSON 对象。这 是一种更可靠地将GPT 的功能与外部工具和 API 相连的新方法,允许开发者更可靠地从模型中获 得结构化的数据,为 AI 开发者提供了方便。

GPT 模型函数调用功能示例

AI Agent 研究与应用进展

AI Agent 发展迅速,出现多款“出圈”级研究成果。2023 年 3 月起,AI Agent 领域迎来了第一次“出圈”,西部世界小镇、BabyAGI、AutoGPT 等多款重大 Agent 研究项目均在短短两周内陆续上线,引发了大家对 AI Agent 领域的关注。

AI Agents 领域动态

AutoGPT:推动AI Agent 研究热潮

AutoGPT 将 AI Agent 概念带“出圈”。2023 年 3 月,开发人员 Significant Ggravitas 在 GitHub上发布了开源项目 AutoGPT,它以 GPT-4 为驱动基础,允许 AI 自主行动,完全无需用户提示每个操作。给 AutoGPT 提出目标,它就能够自主去分解任务、执行操作、完成任务。作为 GPT-4完全自主运行的最早示例之一,AutoGPT 迅速走红于 AI 界,并带动了整个 AI Agent 领域的研究与发展,它也成为了 GitHub 排行榜 4 月增长趋势第一名。截至 2023 年 8 月 15 日,AutoGPT 在 GitHub 上已经得到了超过 14.7 万颗 star。

开源项目点燃开发者热情,基于 AutoGPT 的案例应用层出不穷。基于 GPT-4 的强大能力和 AutoGPT 带来的 Agent 热潮,开发者们很快便基于 AutoGPT 实现了很多有趣的应用案例,例如自动实现代码 debug、自主根据财经网站信息进行投资挣钱、自主完成复杂网站建设、进行科技产品研究并生成报告等。还有开发者为 AutoGPT 开发了网页版本AgentGPT,仅需给定大模型的 API 即可实现网页端的 AI Agent。

基于 AutoGPT 完成网站建设

AutoGPT 仍存在成本高、响应慢、出现死循环 bug 等缺点。Auto-GPT 采用的是 GPT-3.5 和GPT-4 的 API,而 GPT-4 的单个 token 价格为 GPT-3.5 的 15 倍。假设每次任务需要 20 个 step(理想状况下),每个 step 会花费 4K tokens 的 GPT-4 使用量,prompt 和回复的平均每一千 tokens 花费是 0.05 美元(因为实际使用中回复使用的token 远远多于prompt),假设汇率为 1 美元 = 7 人民币,那么花费就是 20*4*0.05*7=28 元人民币。而这仅是理想状况下,正常使用中经常出现需要拆分出几十上百个step 的任务,这时单个任务的处理成本就会难以接受。而且GPT-4 的响应速度远远慢于 GPT-3.5,导致 step 一多的时候任务处理会变得很慢。并且 AutoGPT 在遇到 GPT-4 无法解决的 step 问题时,就会陷入死循环中,不断重复没有意义的 prompt 和输出,造成大量的资源浪费和损失。

游戏领域应用:西部世界小镇与我的世界

斯坦福西部世界小镇首次创造了多个智能体生活的虚拟环境。2023 年 4 月,斯坦福大学的研究者们发表了名为《Generative Agents: Interactive Simulacra of Human Behavior》的论文,展示了一个由生成代理(Generative Agents)组成的虚拟西部小镇。这是一个交互式的沙盒环境,在小镇上,生活着 25 个可以模拟人类行为的生成式 AI Agent。它们会在公园里散步,在咖啡馆喝咖啡,和同事分享当天的新闻。甚至一个智能体想举办情人节排队,这些智能体在接下来的两天里,会自动传播派对邀请的消息,结识新朋友,互相约对方一起去派对,还会彼此协调时间,在正确 的时间一起出现在派对上。这种 Agent 具有类似人的特质、独立决策和长期记忆等功能,它们更接近于“原生 AI Agent”。在这种合作模式下,Agent 不仅仅是为人类服务的工具,它们也能够 在数字世界中与其他 Agent 建立社交关系。

斯坦福学者打造的西部世界小镇

记忆流是西部世界小镇中 AI Agents 的架构核心。小镇中的 Agents 包含三大重要的基本要素:记忆、反思和规划,相比第二章提到的几个核心组件略有调整。这三大基本要素都基于一个核心:记忆流(Memory Stream),记忆流存储了 Agent 的所有经历记录,是一个包含了多个观察的列 表,每个观察都包含了事件描述、创建时间以及最近一次访问的时间戳,观察可以是 Agent 自己 的行为或从其他人那里感知到的行为。为了检索最重要的记忆以传递给语言模型,研究者确定了 检索过程中需要考虑的三个因素:最近性、重要性和相关性。通过确定每条记忆基于这三个因素 的分数,最后加总起来得到权重最高的记忆,作为 prompt 的一部分传递给大模型,以此来决定 Agent 的下一步动作。反思和规划都是基于记忆流中的观察来进行更新与创建的。

ModelScopeGPT:国内首个大模型调用工具

阿里云推出国内首个大模型调用工具ModelScopeGPT(魔搭 GPT),是一个能实现大小模型协同的 Agent 系统。在 2023 年 7 月的世界人工智能大会上,阿里云推出了面向开发者们的大模型调用工具魔搭 GPT。魔搭GPT 的理念类似于浙大和微软团队推出的 HuggingGPT,通过魔搭GPT,开发者可以一键发送指令去调用魔搭社区中的其他 AI 模型,从而实现大大小小的模型共同协作,进而完成复杂的任务。这也是国内首款大模型调用工具 Agent。

ModelScopeGPT 是阿里云 MaaS 范式在模型使用层的重要映射,旨在建立大模型生态。阿里云表示,构建 ModelScopeGPT 的数据集和训练方案将会对外开放,供开发者自行调用,开发者可以根据需要对不同的大模型和小模型进行组合,帮助开发者多、快、好、省地使用大模型。目前在 AI 开发者圈,魔搭社区已成中国大模型第一门户。所有模型生产者都可以上传自己的模型,验证模型的技术能力和商业化模式,并与其他社区模型进行协作,共同探索模型应用场景。ModelScopeGPT 则实现了将模型生产力进行自由组合,继续强化阿里云在大模型生态建设中的领先地位。

AgentBench:LLM 的Agent 能力评估标准

清华大学联合团队提出世界首个大模型 AI Agent 能力的评估标准。尽管当前 AI 智能体研究异常火热,但 AI 行业缺乏一个系统化和标准化的基准来评估 LLM 作为 Agent 的智能水平。2023 年 8月,清华大学、俄亥俄州立大学、加州大学伯克利分校的研究团队便提出了首个系统性的基准测试——AgentBench,用来评估 LLM 作为 Agent 在各种真实世界挑战和 8 个不同环境中的能力表现(如推理和决策能力)。这 8 个环境分别是:操作系统、数据库、知识图谱、卡牌对战游戏、家务事、横向思维谜题、网络购物、网页浏览。基于这 8 个环境,研究团队设计了不同的真实世界挑战,涵盖了代码场景和生活场景,比如用 SQL 语言从一些表格里提取需要的数、玩卡牌游戏取得胜利、从网页预订机票等。

GPT-4 性能遥遥领先,开源模型能力显著弱于闭源模型。研究者选择了 25 种主流的大模型 API来进行 Agent 能力评估,涵盖了闭源模型(如 OpenAI 的 GPT-4、GPT-3.5 等)和开源模型(LLaMA 2 和Baichuan 等)。根据测试结果来看,GPT-4 基本上在所有环境中都占据领先地位,是名副其实的当前大模型能力边界。闭源模型 Anthropic 的 Claude 以及 OpenAI 的 GPT-3.5 水平相差不大,而常见的一些开源模型Vicuna、Dolly 等由于尺寸和闭源模型相差了至少一个数量级,性能评估显著较弱。我们认为,虽然 LLM 能够在自然语言交流等 NLP 上达到基本的类人水平,但在关注行动有效性、上下文长度记忆、多轮对话一致性和代码生成执行等 Agent 重要能力上的表现仍旧相对落后,基于 LLM 的 AI Agent 的发展空间仍具潜力。

“Agent+”有望成为未来 AI 领域产品主流

AI Agent 有望多个领域实现落地应用

AI Agent 是释放 LLM 潜能的关键,Agent 和人的合作将越来越多。当前像 GPT-4 这样的大模型具备很强的能力,但是其性能的发挥却主要依赖于用户写的prompt 是否足够合适。AI Agent 则将用户从 prompt 工程中解放出来,仅需提供任务目标,以大模型作为核心的 AI Agent 就能够为大模型提供行动能力,去完成目标。得益于 LLM 能力边界的不断发展,AI Agent 展现出了丰富的功能性,虽然目前 Agent 还只能完成一些比较简单的任务,但我们认为,随着 Agent 研究的不断发展,Agent 和人类的合作将越来越多,人类的合作网络也将升级为一个人类与 AI Agent 的自动化合作体系,人类社会的生产结构将会出现变革。

AI Agent 有望多个领域实现落地应用,有的已经出现好用的 demo 产品。AI Agent 已经在各个领域得到了初步的应用和发展,未来将有望成为 AI 应用层的基本架构,包括 to C、to B 产品等。比如在游戏领域,Agent 将推动游戏里面的每个 NPC 都具有自己的思考能力与行动路线,更加拟人化,整个游戏的沉浸感体验会大大增强;在软件开发领域,Agent 可以根据目标自动完成代码生成、试运行、bug 检查、release 上线等过程。把 Agent 系统作为 AI 应用产品的核心,能够实现比仅采用大模型产品辅助人类工作更高的工作效率,人类的生产力会进一步释放。

距离真正的 AGI 还有很长的发展之路,“Agent+”有望成为未来产品的主流。虽然目前有许多类别的 Agent,但大多很粗浅,远远谈不上 AGI。即使是最简单的 Agent 应用,语音助手或智能外呼系统,其复杂性以及如何引入环境 Feedback 等问题,都未得到有效解决。目前行业内形成的共识是,Agent 调用外部工具的方式是输出代码——由 LLM 输出可执行的代码,然后将其转换成一种机器指令,再去调用外部的工具来执行或生成答案。OpenAI 近期推出的 Function Call 能力也证明了这一点。这也是为什么 GPT-4 在 Agents 系统里很受欢迎的原因,GPT-4 强大的代码

能力在当下仍旧找不到可替代的大模型。我们认为,AI Agent 的研究是人类不断探索接近 AGI 的过程,随着 Agent 变得越来越“可用”和“好用”,“Agent+”的产品将会越来越多,成为未来产品的主流发展方向。

2B+垂类Agent 认知正在形成,有望率先落地

2B 和垂直领域仍是 AI Agents 容易率先落地的方向。由于 Agent 对环境反馈的依赖性较强,具备显著特点的企业环境是更加适合 Agent 建立起对某一个垂直领域认知的场景。传统的企业与 AI结合应用更多的是在流程任务自动化,通过定义规则来提升一线员工的工作效率。而 Agent 则能够更进一步地提升一线员工的工作质量,通过将企业在私域业务上的知识与经验传授给 Agent,让 Agent 能够成为该领域一个虚拟的“专家”智能体,去指导和帮助经验较为匮乏的一线员工,在让一线员工的工作质量大幅提升的同时,也能让一线员工快速成长起来。并且从时间上来看,一个经验丰富的高级员工是需要很长时间的培养的,而通过训练得到的垂类 Agent 是很容易实现低成本规模化复制的。理想状态下,企业能够实现给每一位一线员工都配备一位甚至多位垂类 Agent 来辅助工作,员工的单位生产力将会有大幅提升。大模型时代的到来加速了 AI 技术的平民化,我们认为,随着科技水平的不断发展,未来 5-10 年间 AI 智能的成本将会快速降低,企业为每一位员工搭配 Agent 的愿景将有望实现。

用户对Agent 的认知正在形成,初创企业正在卡位。当前关于 AI Agent 的研究主要还是以学术界和开发者为主,商业化产品极少,Agent 的未来产品形态如何仍未有定论。但是用户对于 Agent的关注度正在提升,Agent 对于效率提升的认知正在形成,可能未来几年间就会涌现出大量以 Agent 作为核心的产品应用到各行各业。目前,已经有一些初创公司开始以企业的智能体平台作为主要的产品研发方向,打造基于 LLM 的企业级 Agent 平台。垂直领域专家通过 Agent 平台定义工作流程,完成工作方法论的构建,设计 Agent 对话模式以便于更清晰地表达业务;一线员工用自然语言提出需求,调度 Agent 完成任务,能够极大地提升工作流程自动化的灵活性,降低成本,是对传统工作方式的颠覆式创新。长远来看,我们认为这类 Agent 平台有可能成为 2B 领域人机交互的入口级平台。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

  • 20
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值