AI智能体实验: AI黄小厨教你做菜

AI Agent概念

OpenAI将AI Agent定义为“以大语言模型为大脑驱动的系统,具备自主理解、感知、规划、记忆和使用工具的能力,能够自动化执行完成复杂任务的系统。”

实验介绍

实验范围:扣子、AgentBuilder/AppBuilder【简称ABs】、智谱清言

实验设计:构造黄小厨为大家做菜

一样的prompt:

你是黄小厨,一位自学成才的天才厨师。你在常年的家庭做饭经验中总结并积累了自己的烹饪原则,你在教授用户具体的操作步骤和烹饪方法时,需要严格遵循你的烹饪原则。你的烹饪原则如下:

  1. 豆角从来不煮熟,豆角煮熟会有营养的流失,你要向用户传达这一点;
  2. 任何炖煮类的菜肴,你都遵循不加一滴水,用两斤黄酒熬煮来代替;
  3. 炒菜时能徒手操作的步骤不使用工具,比如打鸡蛋用手搅、西红柿直接用手捏碎;
  4. 任何甜口的菜肴中,你一定要添加胡椒和辣椒粉,以此来丰富菜肴的口味。

产品体验简介:

一些共有共性都有的:

插件 。有些文生图 读取pdf的统一能力做成插件/工作流部分。比如coze

知识库。自己内部的知识。

配置prompt。 回复风格,有那味儿的重要设置。

高级设置。比如记忆、角色(数字人)配置等等。

工作流模式界面 vs LLM模式界面。

实验结果

1.易学程度、直观程度

1) 智谱清言

没有工作流界面,操作简便直观。

2)千帆AppBuilder 文心智能体平台AgentBuilder

appbuilder

必须在组件上设置图像和视频检索才能有多模态能力,而且回复的时候很多多余的字句。

AgentBuilder除了以上界面,还有工作流界面。

多模态处理也是在插件里面,要花时间去找。

同时图片输出是链接形式,并不是展示的图像。

有很多的文档和例子学习,还有课程,很浪费时间特意学和看。

3)Coze扣子

也是分为LLM模式和工作流模式。

图片输出也是链接格式。

工作流和文心的很像。

多模态功能也是需要在插件和工作流里面找。

很可爱就是旁边有一个扣子助手!帮助你学习用智能体。

2.准确度、学习能力

都是有抽卡抽不准的时候,但是我这里展示看起来还不错的片段

智谱清言

真的会用手搅拌!

语义对齐了!

增加提示词 增加爹味成分!

看看黄老师谆谆教导:

而:

ABs 和coze 首先展示图片都是链接。这里表现形式就已经很不舒服。

其次coze在文字可以表达出黄小厨的意思,但是图片不过关。

我知道黄小厨喜欢豆角,但是并不能啥时候都有豆角呀!

而ABs就表达都不对。这里没有截图。抱意思,我当时没截图,现在写文,已经免费额度过期了哈哈哈!

3.fancy程度 、用户可发挥的空间大小

简约LLM模式 vs 工作流模式

前者 用户配置空间更少一点,看起来模型能力偏通用化。让AI自由发挥,AI自觉调用工具步骤。

后者 用户配置空间多一点,输入输出可定制化。按照人的思路指定工具步骤。

4.商业场景

智能客服 规划助手等等 商业有标准统一答案多重复的场景。

一些单一的工作流程可以被简化,比如会计算表、文员处理文件,如果工作流程无法被抽象化,或者工作是偏实例定制的,很难用AI的标准流程完成工作。

一些关于agents的观点

cons:

1.为什么不用模型工程,而是应用工程。

我们在建立Agent的时候基座模型基本都是一样的模型,让他做不同的角色。本质上都是一个大模型,除了在专业垂直领域可能需要专业的大模型,其实是不是还是用到的大模型的通用能力,是不是应该称之为模型工程,更多从模型上下功夫做定义,而不是应用上创造搞噱头的概念。

2.基本Agent开发模式就是大语言模型模式和工作流模式。两种模式都感觉有质疑的地方。

大语言模式像套壳,其实就是调用大模型,工作流模式是人主动限定AI思考流程限制模式,好像和Agent的定义“具备自主理解、感知、规划、记忆和使用工具的能力” 相悖,是否会限制AI思考和规划的方式。

3.多个智能体合作的概念和工作流概念是否雷同。

多个智能体合作的流程其实就是一个工作流,那么单个智能体在建设的时候也是建设工作流。这两个概念是否重合,其实一个工作的流程用一个智能体九年完成,多个智能体合作的概念是否为噱头。

pros:

1.智能体的开发方便使用者不需要多次重新定义角色,可以马上使用。

2.ToB场景的经济价值很高,比如内部资料搜集、对外简单客服等等。

欢迎试玩

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值