Google引领LLM竞赛：Gemini 1.5 Pro的创新与突破

本文链接：https://blog.csdn.net/chinaai777/article/details/140884768

在科技领域，语言模型（LLM, Large Language Model）的发展总是备受瞩目。多年来，Google在这场竞赛中一直处于追赶的状态，但这一次，他们终于站在了领先的位置。Google近日发布了Gemini 1.5 Pro实验版本，这一模型目前在Chatbot Arena排行榜上位居榜首，得分高达1300分，让人印象深刻。

Gemini 1.5 Pro的多语言和视觉能力

Gemini 1.5 Pro不只是排名第一的语言模型，它在多语言处理能力上也表现卓越，尤其是在中文和德语上的表现尤为突出。然而，在技术领域上，它仍有一些短板，例如在编码任务中，它仅排名第四，并且在难度较高的英语提示上也表现一般。

尽管如此，Google在这一周的表现还是非常令人赞叹的。就在昨天，他们发布了Gemini 2的2亿参数模型，而今天又有了这款新的Gemini 1.5 Pro。如果你想要体验这款模型，可以前往Google AI Studio。在那里，你可以选择Gemini 1.5 Pro实验版本进行互动，这个版本的上下文窗口达到了令人惊叹的200万tokens，并且通过API免费提供。

Gemini 1.5 Pro的性能评测

我们来看看Gemini 1.5 Pro在实际应用中的表现。首先，我测试了一个无线提示：哪个数字更大，9.11还是9.9？模型正确地回答了9.9更大。即使是Gemini 2 2B模型也能给出这个答案。这可能与训练数据有关，但无论如何，它的表现还是很出色的。

另一个测试是让模型计算单词"strawberry"中字母R出现的次数。Gemini 1.5 Pro正确地回答了三次，并能准确指出字母R的位置。这比GPT-4 O在相同提示下的表现要好得多，后者错误地回答了两次。

在另一个测试中，我问了模型单词"psychology"中字母Y出现的次数，它也能正确回答。这些测试显示了Gemini 1.5 Pro在字符处理上的优势，这可能与其使用的tokenizer有关。

安全设置和JSON输出模式

值得注意的是，Gemini 1.5 Pro还具备安全设置功能，你可以通过UI或API来调整这些设置。与之前的版本一样，这个版本也支持JSON模式输出和代码执行功能，这基本上是一个API背后的代码解释器。

使用API进行代码执行

如果你想使用API进行测试，只需点击"Get Code"按钮，这将为你生成一个Python脚本，你可以将其集成到自己的应用程序中。以下是一些步骤，展示了如何使用这个新的Gemini 1.5 Pro实验版本进行代码执行。

首先，我们需要安装Google的生成式AI包，然后导入生成式AI类，并设置API密钥。接着，我们创建一个模型对象，指定使用Gemini 1.5 Pro实验版本。默认情况下，它不会启用代码解释器，但你可以通过提供code_execution工具来启用这一功能。

通过这些设置，你可以运行各种提示，让模型不仅生成代码，还能执行这些代码并返回结果。例如，我让模型计算前200个质数的和，它能正确地列出所有质数并进行求和。同样，它在字符串处理和数据分析等任务中也表现出色。

多模态能力：图像与文本的结合

Gemini 1.5 Pro还具备多模态能力，能够理解图像。例如，我给模型提供了一张图像和一个系统提示，让它模拟Monty Hall问题。模型不仅能生成相应的Python代码，还能进行模拟并返回结果。

总结

总的来说，Gemini 1.5 Pro在多语言处理、字符处理和代码执行等方面表现出色，尤其是其多模态能力更是让人印象深刻。虽然在某些技术领域上还存在一些不足，但它无疑是目前最先进的语言模型之一。如果你对科技感兴趣，强烈推荐你亲自体验一下Gemini 1.5 Pro的强大功能。

希望这篇文章能帮助你更好地了解Gemini 1.5 Pro的创新与突破。感谢阅读，我们下次再见！