我算比较资深的 Agent 开发者:ChatGPT中,用量最大的 Plugin 和用量最大的华人捏的 Bot,可能都是我做的。
Agent 的起源
不做词义追源,仅从大众角度,这个事儿是去年初开始的,也就是 2023 年 2-3 月。标志性事件包括:
-
AutoGPT 等开源项目的发布,这是第一批基于自然语言的 AI 自动化实践:你告诉它一个任务,它就会通过自然语言的自我对话,将这个任务进行拆分、规划并实现。
-
斯坦福小镇一类的项目实践:给予不同的 Bot 以不同的人格,搭配记忆窗口,让它们之间相互对话。
-
发表于 2 月的论文《Toolformer: 大模型可以教自己使用工具》,以及 OpenAI 在 3 月底发布的插件计划:这意味着,大模型从原来的“思想家”,通过对外部工具的使用,变成了实干家。
《AI 学会使用工具了》
2023年2月14日,报道自赛博禅心
现在的 Agent
时至今日,对于 Agent 是什么,可能还没有一个标准的定义。
一个常见的观点是,Agent 是一种让 AI 以类似人的工作和思考方式,来完成一系列的任务。一个 Agent 可以是一个 Bot,也可以是多个 Bot 的协同。就像是职场里,简单的工作独立完成,复杂的工作协作完成一样。
对于每个 Bot 来说,可能会包括:
-
一个大脑:判断和规划行为,这里通常用 GPT-4或同水平的 LLM;
-
眼睛和手:确认信息和使用外部工具,一般是各种插件/action/api;
-
工作纪要:储存已经发生的事,通常的媒介是上下文窗口,或者数据库;
-
行为SOP:明确这个 Agent 的身份、任务、目标和机制。这个 SOP 可能是用户给的,也可能是由其它 Bot 给出的。
再具象一点,这里我从 GPTs 里截了个图:
对于 GPTs,通常被认为是由 OpenAI 设计的简化版的 Agent。默认情况下,只能进行单 Bot 交互:
-
一个大脑:在 ChatGPT GPT Store 里,GPT-4 是唯一可选的 LLM;
-
眼睛和手:可以在 Capabilities 里勾选由 OpenAI 提供的第一方能力,也可以通过Actions 来拓展更多的外部能力;
-
工作纪要:一般来说就是对话记录,GPTs 可以回顾之前的对话;
-
行为SOP:存放在 Description, Instructions 以及 Knowledge 里。
OpenAI 的 Agent 演进
以 OpenAI 为例,我们看看 Agent 是如何一步步演进的。
去年 3 月底,OpenAI 宣布了插件计划,并在 5 月上线了插件商店,这也标志了 OpenAI 揭开 Agent 战局的第一步。
在当时 OpenAI 给开发者发送的指引中,给了这样的 Todo:
-
第一步:开发接口,来定义 ChatGPT 可以调用的功能。接口可以是新开发的,也可以是改造现有的
-
第二步:写一份文档,给 ChatGPT 来看,让它知道什么时候去调用接口。当然,这里要遵循一定的格式,然后用自然语言来写。
如果你做过 OpenAI API 的开发,可能会觉得这个文档有些熟悉,这不就是 Fuction Call 吗?
没错,在 2023 年 6 月 13 日,OpenAI 发布了 Function Call 模式,让大模型可以来调用外部工具,用的就是非常类似的方案。
再往后,OpenAI 的相关工作人员做了一系列的 Research,关于 Agent 的最佳实践。同时的,也发布了 Custom Instruction 指令的相关功能。
之后,ChatGPT 推出了 All Tools 功能。也就是回答用户问题时,不再需要用户自主的来选择工具,这可以视作是“自动版的Plugin”,覆盖了三款官方工具:Browsing, Advanced Data Analysis 和 DALL·E。
时间推移,在2023 年 11 月 6 日的时候,在 OpenAI 开发者大会上,Sam Altman 宣布了 GPTs,这通常被认为是 OpenAI 推出了其第一个正式版的 AI Agent。在最初的版本中,包括以下功能
-
允许用户创建多个 Bot,自定义它们的身份和回答风格。并且这些 Bot 可以分享
-
Bot 可以自有使用三款官方工具:Browsing, Advanced Data Analysis 和 DALL·E
-
Bot 也可以通过 Action 的方式(类似 API 的东西),去调用任何的外部能力
-
Bot 可以有自己的数据空间,允许用户对这些数据进行 QA。
同时,在11月06日的时候,OpenAI 也更新了几个影响深远的接口:
-
Function Calling:更新多参数生成功能,可以让一轮对话完成多项任务
-
JSON Mode:让 API 通过 JSON,而非文字,来做出回应
-
Seed:设定随机值,提高一致性
-
Assistants API & Code Interpreter:可以理解为把 ChatGPT 的 Bot,搬到了 API 里
-
Retrieval:简易化知识库构建
在最近 GPTs 体系上线了 GPT Store,有些媒体称其为 OpenAI 的 App Store 时刻,但其实并不相同。在 GPT Store 里,用户可以搜索和使用为各项任务所开发的 GPTs。
紧随 GPT Store 上线的,还有 @GPTs 功能,也就是在任何的对话中,你都可以手动的让某个 GPTs 接管这个对话内容,做出更好的输出。
值得一提的是,由于 GPT Store 没有开放支付入口,所以目前几乎所有的 GPTs 都是免费的。对此,OpenAI 也承诺了会给头部开发者提供激励。
其它 Agent 平台
之前和 OpenAI 的相关负责人聊过,ChatGPT 的主要定位是“开箱即用的消费级产品”。那这里,自然给“较为复杂的生产级产品”留下了生态空间。这里,我们也来探讨下这类产品。
主要的 AI 玩家都会对这方面有所涉足,也各有侧重。比如来传统大厂自字节扣子/coze,百度的灵境矩阵,也比如来自 AI 初创公司的 Dify 等等。
以扣子为例,对比与 GPTs Store,主要的体感区别包括:
-
免费,至少目前是完全免费的
-
有数十个官方插件,对比与 GPTs 里只有3个
-
可以用类似低代码的方式,构建Workflow,并被 Bot 调用
-
可以将捏好的 Bot 发布到其它平台(比如飞书,公众号),同时支持 API
其中后两条极为核心。
我的 Agent 的实战
一个设计良好的 Agent 可以提供极大的生产力,并创造极高的价值。
前几天大火的 Devin,被称为“第一位由 AI 担任的软件工程师”,它可以自主的去学会如何使用不熟悉的技术,自主的生成代码、调试bug和部署应用。
Agent 也可以替代现有的很多软件工具,去完成工作中繁琐的任务。举个例子,我正打算开一个专栏,叫做“乘风破浪的少年们”,去讲述和记录那些在这次 AI 浪潮中,登上世界舞台的中国人,用对话的形式。
这里对我来讲的一个很大挑战:我需要整理大量的文字稿,并且把它排版出来,这并不轻松,也很占时间。我希望有一个 Agent 来帮我做这件事情。
昨天下午,我和 Owen(沉浸式翻译的作者)去参加了一个 Hackathon,现场有了灵感,并梳理出了这个 Agent 的思路:
-
第一步:将对话音频文件,通过 AI(比如whisper)转化成文字稿
-
第二步:将文字稿用 AI 转化成 QA 问答对,以 json/csv 的方式储存
-
第三步:将 QA 问答对,转化成 HTML(可以导入进微信公众号)
我们花了俩小时,用扣子,把这个 Agent 给搓了出来,起名《带带弟弟排版器》,希望大家带带单打独斗的弟弟。也顺道着把我上次参加 OpenAI 的红队活动的笔记,转成了 .csv
然后把这个 .csv 文件丢给了《带带弟弟排版器》
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓
👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓