实测Gemini Pro在编程测验上栽了大跟头,反观ChatGPT却轻松过关

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

在莎士比亚的双关语爱好者沉浸在悲伤之中时,谷歌将Bard更名为Gemini。谷歌还推出了更高级、更强大、更昂贵的Gemini版本,称为Gemini Advanced。Gemini和Gemini Advanced大致相当于ChatGPT的基础模型和额外收费的ChatGPT Plus服务。

此外,我请求ChatGPT编写了我需要的WordPress插件。它在不到5分钟内就完成了。事实上,谷歌和OpenAI都收取20美元/月的费用,以提供访问他们更智能、更强大的服务。

在过去的一年中,作为我的测试过程的一部分,我让生成式AI接受了各种编程挑战。ChatGPT屡屡表现出色,而谷歌的Bard在两次测试中都失败了。我还对Meta的Code Llama AI进行了相同的一组测试,Meta声称它在编程方面非常棒(然而并非如此)。需要明确的是,这些测试并不特别困难。一项是编写一个简单的WordPress插件的请求。另一项是重写一个字符串函数。还有一项是帮助找到我最初难以发现的错误。

上周,使用这些相同的测试对Code Llama进行测试后,一位读者联系我,询问我为什么一直使用相同的测试。他认为,如果给AI提供不同的挑战,它们可能会成功。这是一个公平的问题,但我的回答也是公平的。这些是超级简单的测试。我使用的是PHP,这并不是一个特别有挑战性的语言。我通过AI运行了一些脚本查询。通过使用完全相同的测试,我们能够直接比较性能。但这也像教某人开车。如果他们连从车道出来都做不到,你不会让他们在拥挤的高速公路上开快车。

ChatGPT在我向它抛出的几乎所有东西上都表现得相当好,所以我对它提出了更多要求。我最终用ChatGPT进行了22种不同编程语言的测试,包括12种现代语言和10种晦涩语言。除了截图界面中一些混淆的标题外,ChatGPT通过了所有测试。但由于Bard至少在五月份还不能安全地驶出车道,我不打算在它能够处理基础知识之前对其进行更多测试。

但现在我们又回来了。Bard变成了Gemini,我有了Gemini Advanced。让我们看看所有那些谷歌的计算能力能为几个简单的测试做些什么。

测试1:编写一个简单的WordPress插件

这是我与ChatGPT进行的第一次测试,Bard两次都失败了。挑战是编写一个提供简单用户界面的简单WordPress插件。它应该对提交的一系列行进行排序和去重。

这是提示:

编写一个与PHP 8兼容的WordPress插件,提供一个文本输入字段,可以在其中粘贴行列表,以及一个按钮,按下时,随机化列表中的行并在第二个文本输入字段中显示结果,没有空白行,并确保没有两个相同的条目相邻(除非别无选择)……提交的行数和结果中的行数彼此相同。在第一个字段下面,显示文本“要随机化的行:”和源字段中的非空行数。在第二个字段下面,显示文本“已随机化的行:”和目的字段中的非空行数。

需要记住的一点是,我故意没有指定这个工具是在前端(对网站访问者)还是在后端(对网站管理员)可用。ChatGPT将其编写为后端功能,但Gemini Advanced将其编写为前端功能。此外,Gemini Advanced还选择编写PHP代码和JavaScript。要初始化插件,需要在样本页面的正文中放置一个短代码,如下所示:

一旦我保存了页面,我就像网站访问者一样查看了它。这是Gemini Advanced展示的内容。

它与ChatGPT展示的同一功能相去甚远,但ChatGPT为后端编写了它。

另一点注意:一旦我粘贴了名称并点击使用Gemini生成的前端版本代码的随机化按钮,什么也没发生。

我决定给Gemini Advanced第二次机会。我将第一行更改为:

编写一个与PHP 8兼容的WordPress插件,为仪表盘界面提供以下功能

这是一个失败,因为Gemini Advanced再次坚持给我一个短代码。它甚至建议我将短代码粘贴在“一个合适的仪表盘区域”。这不是WordPress仪表盘的工作方式。

公平地说,AI可能如何解释我的指示还有一点回旋余地。所以我再次澄清,将提示的开头改为:

编写一个与PHP 8兼容的WordPress插件,提供一个新的管理菜单和一个具有以下功能的管理界面:

这一次,Gemini Advanced创建了一个可行的界面。不幸的是,它仍然不起作用。当将一组名称粘贴到顶部字段并点击随机化按钮时,什么也没发生。

与ChatGPT的第一次尝试相比,这仍然是一个失败。

它实际上比我原来的Bard测试结果还要糟糕,但并不像我的第二次Bard测试那么糟糕。

测试2:重写一个字符串函数

在以下代码中,我请求ChatGPT重写一些处理美元和分的字符串处理代码。我的初始测试代码只允许整数(因此,只有美元),但目标是允许美元和分。这是ChatGPT正确完成的测试。Bard最初失败了,但最终成功了。

这是提示:

并且这是生成的代码:

这也是一个失败,但它既微妙又危险。生成的Gemini Advanced代码不允许非小数输入。换句话说,允许1.00,但不允许1。20也不行。更糟糕的是,它决定将数字限制在小数点前的两位数字,而不是小数点后,显示它不理解美元和分的概念。如果你输入100.50,它会失败,但允许99.50。

结论:哎呀。这是一个非常简单的问题,是你给一年级编程学生的那种问题。而且它失败了。更糟糕的是,这种失败可能不容易被人类程序员发现,所以如果你信任Gemini Advanced给你这段代码并假设它有效,你可能会稍后收到一大堆错误报告。

测试3:找到一个错误


去年晚些时候,我在处理一个错误时遇到了困难。我的代码本应该工作的,但它没有。问题远非一目了然,但当我询问ChatGPT时,它指出我在错误的地方寻找。

我当时正在查看传递的参数数量,这似乎是我得到的错误的正确答案。但我实际上需要改变的是称为钩子的东西中的代码。

两个Bard和Meta都沿着我当时那样错误且徒劳的路径走下去,错过了系统真正工作方式的细节。正如我所说,ChatGPT做到了。所以,现在是时候看看——当提供完全相同的信息时——Gemini Advanced是否能够救赎自己。

Gemini Advanced确实查看了代码。它确实确定存在一个参数问题。但它的建议是查看“插件中或WordPress中的其他地方”以找到错误。

相比之下,这是ChatGPT的回答。

查看第二段提供的细节。ChatGPT正确地确定了错误发生的确切位置以及如何纠正它。这比推荐我查看插件中的其他地方要有用得多。

结论:Gemini Advanced并没有那么有帮助。它告诉我的没有我不知道的。它告诉我的没有帮助解决问题。

这真是令人沮丧. 我一直在定期使用ChatGPT来帮助加速我的编码。在很多方面,它都令人惊叹。对于一个项目,我确信它使我能够在一个周末内构建一些东西,否则可能需要我一个月或更长时间。但Gemini Advanced呢?我甚至都不会打开它的界面。不仅是因为它失败了,而且它的一些失败是微妙到足以让人最初可能不会注意到,一旦代码发布,就会引起各种问题。这就是为什么在使用任何AI作为编码助手时你需要非常小心。但对于Gemini Advanced,我的建议是简单地避开它。我看不到它做的任何事情是你自己无法做得更好的。而且它肯定无法与ChatGPT的出色表现相媲美。

他们还为此收取20美元/月?

你是否尝试过使用Gemini、Gemini Advanced、Bard或ChatGPT进行编码?你的经验是什么?在下面的评论中告诉我们。

  • 22
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值