听吴恩达的话,开源大模型结合Agent将大有可为

最近吴恩达在一次内部分享中提到,“较低参数规模的大模型加上Agent能胜过GPT5”,他呼吁大家去探索Agent,这个结论跟我最近对AI的探索比较契合。

开源大模型的可用性

当下市面上涌现出数百个大规模的模型,其中开源的有几十个。在这些开源可用的模型当中,LLama2-70B和QWen-72B的能力尤为出色。它们的性能或接近,或部分能力甚至已经超过了GPT3.5-Turbo。这意味着,大家有足够多的选择和可能性。
接下来,我们将进行一系列的评测,涉及的模型包括LLama2-70B、通义千问-72B、GPT3.5以及GPT4。这次评测的主要目的并不是验证这些模型的能力,而是通过这些评测,给大家直观地展示开源模型和GPT4之间存在的差距,并且让大家看到这个差距是可以被弥补的。为了排除多语言因素对评测结果的影响,我们选择统一使用英文进行评测。整个评测过程中,我们将对模型进行三道题的测试。

首先,我们来看第一道题,这是一道关于Linux的题目。我们的任务是将一个服务转变成被systemctl托管的服务。

图片

截图从左到右,依次是LLama2-70B、通义千问-72B、GPT3.5、GPT4

从答案中我们可以看出,前三个模型的答案是相似的,都提供了解决问题的步骤。然而,GPT4在答案的结构化详细程度上做得更好一些。尽管如此,我们有理由相信,如果我们使用高度标准化的Prompt,并进行多轮对话,最终也能得到类似于GPT4的答案。这意味着,即使我们没有使用最先进的模型,只要我们采用正确的方法和策略,我们仍然有可能得到高质量的答案

接下来是第二道题,基于一个JSON格式的订单数据,让模型给出订单金额最高的用户id图片在这一轮的比较中,LLama2-70B的表现超过了预期,它既给出了代码,又给出了答案。而通义千问-72B和GPT3.5仅给出了代码。GPT4则简洁明了,直接给出了答案。如果我们仔细研究GPT4的工作过程,会发现一个非常有趣的细节。首先,GPT4会生成一段代码。之后,GPT4再执行这段代码,以得到一个具体的结果。图片实际上,我们可以通过通用千问和GPT3.5模拟出类似GPT4的效果。这个过程并不复杂,只需分两步:首先,把用户的问题转换成代码生成任务,该任务旨在生成能解决问题的代码。然后,生成代码后执行这些代码。通过这两步,我们就可以实现类似GPT4的效果。

接下来,我们将进一步增加难度,针对第三道题,基于订单数据,让模型计算出各国订单金额的占比。图片

在这些答案中,GPT4依然表现出色,直接给出了结果——饼状图。而LLama2-70B似乎理解偏了,直接手撕了一个JavaScript组件。通义千问-72B和GPT3.5的表现相似,都提供了Python代码,其中前者表现稍好一些,提供了更详细的代码解释。

同样,进一步看,GPT4也提供了执行代码,这与上一步相似,不再赘述。

看到这里,相信大家已经明白了。开源模型具备了一定的推理能力,能够应付一些编码,数据分析等问题,只是在直接获得结果的表现上略差。但试想一下AI,我们将任务分解成多步骤,然后分别执行每一步骤的操作,是同样可以实现和GPT4类似的效果。也就是说,我们是可以在较小规模参数的模型下通过标准化的动作或步骤来达到与GPT4类似的效果

这一观点最近大佬吴恩达也有表述,他认为:

  • 使用Agent在较小的模型上能做出媲美甚至超过更大的模型的效果
  • 更小的模型,有更高的响应速度,更低的训练和推理成本

关于模型推理速度这一部分,给人的感受也是很直观的。在实际使用过程中,你会发现GPT3.5的推理速度远胜于GPT4。这个优势是不容忽略的,在实际应用中,模型的推理速度往往和得到一个完美答案的重要性相当

不要期待大模型帮你做更多

给问题增加点难度

追加一个新问题:“请帮我分析一下,最近一个月折扣场景的订单在不同国家的占比是多少?”

看似简单的一句话,无论是LLama2-70B,还是最新的GPT4,都无法直接回答这个问题。这里涉及到的并不是一个简单的代码生成和执行,它涉及到从什么数据源,读取什么数据,执行什么脚本或代码等。实际上,对于很多实际应用场景,更大规模的模型并不能帮我们做更多。

那么,我们看一个更加贴近现实需求的例子呢?

例如:“请帮我分析以下数据,我想要了解最近一个月在各个折扣场景下的订单在不同国家的占比。并且找出订单量占比最高的三个国家,进行进一步的详细分析,对比这Top3国家的人均订单金额,并取中位数。最后,请你将这些数据整合成一个报表,抄送给营销部的总监张三。”

听起来更复杂了,是吧?不过别担心,我们拆分一下,让问题看起来更加清晰和简单。

1、统计最近一个月折扣活动的订单在不同国家的占比。

2、从不同国家的订单占比数据中,选取占比最高的三个国家。

3、计算这三个国家的人均订单金额中位数,并进行对比。

4、将以上数据整理成网页,并输出。

5、将报表链接通过邮件发送给同事张三。

任务拆解后,似乎有了实现的可能性。但和上面的问题一样,每一步仍然存在许多困难。除了刚才提到的数据源和数据执行的问题,我们还遇到了新问题:大模型需要连接工具(生成网页,发邮件等),并需要本地化知识(用来理解谁是张三)。事实上,我们距离一句话实现所有的需求(Zero-Shot)还很遥远 .

回归到本质问题

我认为即便是GPT5问世,仍然无法实现我们现实的需求。原因也很简单,大模型本质上是一种基于大量数据和算法的预测模型。既然是一个预测模型,这就意味着当一个任务可拆分的步骤和分支越多,那它每一步的错误都可能导致最终结果的偏差,其对每一步的容错率就越低,反而对模型的要求就越高,需要模型有更高的准确性和稳定性。这对于一个基于统计的模型来说,显然是不现实的。

因此,我们不能盲目期待新的模型能够出现并解决所有问题,而忽视了我们当前所具备的模型和它们的优点。尤其是在当前开源模型的可用性非常高的情况下,我们有更多的选择和可能性。在此呼吁大家多去看大模型的应用,尤其是对于我们普通人,更应该提早布局。

“一个多年的后端程序员,欢迎关注我的公众号,一起探索AI转型。”

image.png

  • 18
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值