AI智能体的炒作与现实:GPT-4都撑不起,现实任务成功率不到15%

近日,一篇就 AI 智能体在宣传和真实表现上的差距而撰写的博客中,强调了一个观点:「AI 智能体在宣传上是个巨人,而现实却很不妙。」

随着大语言模型的不断进化与自我革新,性能、准确度、稳定性都有了大幅的提升,这已经被各个基准问题集验证过了。

但是,对于现有版本的 LLM 来说,它们的综合能力似乎并不能完全支撑得起 AI 智能体。

图片

多模态、多任务、多领域俨然已成为 AI 智能体在公共传媒空间内的必须要求,但是在具体的功能实践中所展现的真实效果却差强人意,这似乎也再次提醒各个 AI 智能体初创公司以及大型科技巨头认清现实:脚踏实地一点,先别把摊子铺得太大,从 AI 增强功能开始做起。

近日,一篇就 AI 智能体在宣传和真实表现上的差距而撰写的博客中,强调了一个观点:「AI 智能体在宣传上是个巨人,而现实却很不妙。」

不可否认的是,自主 AI 智能体能够执行复杂任务的前景已经引起极大的兴奋。通过与外部工具和功能的交互,LLMs 可以在没有人为干预的情况下完成多步骤的工作流程。

但现实证

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诗者才子酒中仙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值