实测Gemini Pro在编程测验上栽了大跟头，反观ChatGPT却轻松过关-CSDN博客

本文链接：https://blog.csdn.net/2301_79342058/article/details/136358499

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

在莎士比亚的双关语爱好者沉浸在悲伤之中时，谷歌将Bard更名为Gemini。谷歌还推出了更高级、更强大、更昂贵的Gemini版本，称为Gemini Advanced。Gemini和Gemini Advanced大致相当于ChatGPT的基础模型和额外收费的ChatGPT Plus服务。

此外，我请求ChatGPT编写了我需要的WordPress插件。它在不到5分钟内就完成了。事实上，谷歌和OpenAI都收取20美元/月的费用，以提供访问他们更智能、更强大的服务。

在过去的一年中，作为我的测试过程的一部分，我让生成式AI接受了各种编程挑战。ChatGPT屡屡表现出色，而谷歌的Bard在两次测试中都失败了。我还对Meta的Code Llama AI进行了相同的一组测试，Meta声称它在编程方面非常棒（然而并非如此）。需要明确的是，这些测试并不特别困难。一项是编写一个简单的WordPress插件的请求。另一项是重写一个字符串函数。还有一项是帮助找到我最初难以发现的错误。

上周，使用这些相同的测试对Code Llama进行测试后，一位读者联系我，询问我为什么一直使用相同的测试。他认为，如果给AI提供不同的挑战，它们可能会成功。这是一个公平的问题，但我的回答也是公平的。这些是超级简单的测试。我使用的是PHP，这并不是一个特别有挑战性的语言。我通过AI运行了一些脚本查询。通过使用完全相同的测试，我们能够直接比较性能。但这也像教某人开车。如果他们连从车道出来都做不到，你不会让他们在拥挤的高速公路上开快车。

ChatGPT在我向它抛出的几乎所有东西上都表现得相当好，所以我对它提出了更多要求。我最终用ChatGPT进行了22种不同编程语言的测试，包括12种现代语言和10种晦涩语言。除了截图界面中一些混淆的标题外，ChatGPT通过了所有测试。但由于Bard至少在五月份还不能安全地驶出车道，我不打算在它能够处理基础知识之前对其进行更多测试。

但现在我们又回来了。Bard变成了Gemini，我有了Gemini Advanced。让我们看看所有那些谷歌的计算能力能为几个简单的测试做些什么。

测试1：编写一个简单的WordPress插件

这是我与ChatGPT进行的第一次测试，Bard两次都失败了。挑战是编写一个提供简单用户界面的简单WordPress插件。它应该对提交的一系列行进行排序和去重。

这是提示：

编写一个与PHP 8兼容的WordPress插件，提供一个文本输入字段，可以在其中粘贴行列表，以及一个按钮，按下时，随机化列表中的行并在第二个文本输入字段中显示结果，没有空白行，并确保没有两个相同的条目相邻（除非别无选择）……提交的行数和结果中的行数彼此相同。在第一个字段下面，显示文本“要随机化的行：”和源字段中的非空行数。在第二个字段下面，显示文本“已随机化的行：”和目的字段中的非空行数。

需要记住的一点是，我故意没有指定这个工具是在前端（对网站访问者）还是在后端（对网站管理员）可用。ChatGPT将其编写为后端功能，但Gemini Advanced将其编写为前端功能。此外，Gemini Advanced还选择编写PHP代码和JavaScript。要初始化插件，需要在样本页面的正文中放置一个短代码，如下所示：

一旦我保存了页面，我就像网站访问者一样查看了它。这是Gemini Advanced展示的内容。

它与ChatGPT展示的同一功能相去甚远，但ChatGPT为后端编写了它。

另一点注意：一旦我粘贴了名称并点击使用Gemini生成的前端版本代码的随机化按钮，什么也没发生。

我决定给Gemini Advanced第二次机会。我将第一行更改为：

编写一个与PHP 8兼容的WordPress插件，为仪表盘界面提供以下功能

这是一个失败，因为Gemini Advanced再次坚持给我一个短代码。它甚至建议我将短代码粘贴在“一个合适的仪表盘区域”。这不是WordPress仪表盘的工作方式。

公平地说，AI可能如何解释我的指示还有一点回旋余地。所以我再次澄清，将提示的开头改为：

编写一个与PHP 8兼容的WordPress插件，提供一个新的管理菜单和一个具有以下功能的管理界面：

这一次，Gemini Advanced创建了一个可行的界面。不幸的是，它仍然不起作用。当将一组名称粘贴到顶部字段并点击随机化按钮时，什么也没发生。

与ChatGPT的第一次尝试相比，这仍然是一个失败。

它实际上比我原来的Bard测试结果还要糟糕，但并不像我的第二次Bard测试那么糟糕。

测试2：重写一个字符串函数

在以下代码中，我请求ChatGPT重写一些处理美元和分的字符串处理代码。我的初始测试代码只允许整数（因此，只有美元），但目标是允许美元和分。这是ChatGPT正确完成的测试。Bard最初失败了，但最终成功了。

这是提示：

并且这是生成的代码：

这也是一个失败，但它既微妙又危险。生成的Gemini Advanced代码不允许非小数输入。换句话说，允许1.00，但不允许1。20也不行。更糟糕的是，它决定将数字限制在小数点前的两位数字，而不是小数点后，显示它不理解美元和分的概念。如果你输入100.50，它会失败，但允许99.50。

结论：哎呀。这是一个非常简单的问题，是你给一年级编程学生的那种问题。而且它失败了。更糟糕的是，这种失败可能不容易被人类程序员发现，所以如果你信任Gemini Advanced给你这段代码并假设它有效，你可能会稍后收到一大堆错误报告。

测试3：找到一个错误

去年晚些时候，我在处理一个错误时遇到了困难。我的代码本应该工作的，但它没有。问题远非一目了然，但当我询问ChatGPT时，它指出我在错误的地方寻找。

我当时正在查看传递的参数数量，这似乎是我得到的错误的正确答案。但我实际上需要改变的是称为钩子的东西中的代码。

两个Bard和Meta都沿着我当时那样错误且徒劳的路径走下去，错过了系统真正工作方式的细节。正如我所说，ChatGPT做到了。所以，现在是时候看看——当提供完全相同的信息时——Gemini Advanced是否能够救赎自己。

Gemini Advanced确实查看了代码。它确实确定存在一个参数问题。但它的建议是查看“插件中或WordPress中的其他地方”以找到错误。

相比之下，这是ChatGPT的回答。

查看第二段提供的细节。ChatGPT正确地确定了错误发生的确切位置以及如何纠正它。这比推荐我查看插件中的其他地方要有用得多。

结论：Gemini Advanced并没有那么有帮助。它告诉我的没有我不知道的。它告诉我的没有帮助解决问题。

这真是令人沮丧. 我一直在定期使用ChatGPT来帮助加速我的编码。在很多方面，它都令人惊叹。对于一个项目，我确信它使我能够在一个周末内构建一些东西，否则可能需要我一个月或更长时间。但Gemini Advanced呢？我甚至都不会打开它的界面。不仅是因为它失败了，而且它的一些失败是微妙到足以让人最初可能不会注意到，一旦代码发布，就会引起各种问题。这就是为什么在使用任何AI作为编码助手时你需要非常小心。但对于Gemini Advanced，我的建议是简单地避开它。我看不到它做的任何事情是你自己无法做得更好的。而且它肯定无法与ChatGPT的出色表现相媲美。

他们还为此收取20美元/月？

你是否尝试过使用Gemini、Gemini Advanced、Bard或ChatGPT进行编码？你的经验是什么？在下面的评论中告诉我们。