探讨一下所谓的“最强大模型” - Google Gemini_谷歌deepmind、meta ai实验室共同开发多模态-CSDN博客

本文链接：https://blog.csdn.net/Gabriel100yi/article/details/135074596

谷歌在 12 月 6 号发布了由其旗下 DeepMind 和 Brain AI 实验室共同合作开发的最新的多模态人工智能大语言模型——Google Gemini。

不过在谷歌相继推出 Bard、Duet AI 和 PaLM 2 这个几个大语言模型之后，谷歌在 2023 年 5 月的 Google I/O 开发者大会上就首次推出了Gemini。然而，谷歌一直到 12 月 6 日才推出了 Gemini 的第一次迭代产品，同时为未来的发展制定了明确的路线图。

随着生成式人工智能需求的不断增长，谷歌此次也指望通过 Gemini 从 Meta 和微软等竞争对手手中夺回部分人工智能市场份额。

什么是 Gemini ？

Gemini 的中文意思是双子座。

Google Gemini 是一组利用了其旗下知名的 AlphaGo 的训练技术（例如树搜索和强化学习）的大型语言模型 (Large Language Models，LLM)。这是 Google 和 Google Research 多个团队共同努力的产品。谷歌希望它能够成为为其旗下的产品和服务提供动力的“旗舰人工智能”。

谷歌 DeepMind 首席执行官兼联合创始人 Demis Hassabis 表示，Gemini 是他们构建的最“有能力”（most capable）的模型。

与新兴的大型语言模型军备竞赛中的其他模式不同的是，Google Gemini 从一开始就被构建为多模态的——它可以无缝地概括、理解和组合包括文本、代码、音频、视频和图像在内的不同的数据类型。

Gemini 在 Google 内部 AI 芯片和张量处理单元（例如 TPU v4 和 v5e）上进行了训练。它是市场上最灵活的模型之一，也是最高效的模型之一，官方宣称 Gemini 可以在从大型数据中心到移动设备的所有设备上运行（现在其他多模态处理都需要大量电力）。

Gemini Nano、Pro 和 Ultra

这次发布的 Gemini 版本只是该模型的 1.0 版本。涵盖了三种不同的尺寸：

Gemini Nano

Gemini Nano 是 Gemini 大语言模型的“精简”版，分为两种规模：Nano-1（18 亿个参数，1.8B）和 Nano-2（32.5 亿个参数，3.25B）。

Gemini Nano 主要为在移动设备上运行而设计的，预计大众很快将通过 Android 14 在 Pixel 8 Pro 应用程序上看到。尽管 Nano 是 Pixel 8 Pro 独有的，但目前开发者可以申请先睹为快。

Gemini Nano 将为 Google 在 10 月份 Pixel 8 Pro 发布会期间预览的各种功能（例如 Record 应用程序中的文本摘要以及消息应用程序的建议回复）提供支持。

Gemini Pro

Gemini Pro 在 Google 的数据中心上运行，并为 Google Bard（类似于 ChatGPT 的聊天机器人）等产品提供支持。谷歌很快会将其应用到其他例如 Duet AI、Google Chrome、Google 广告和 Google 生成式搜索等工具上。

Vertex AI（Google 完全托管的机器学习平台）的用户预计将在12 月 13 日可以使用 Gemini Pro。未来谷歌的生成式人工智能开发套件也会集成 Gemini Pro。

谷歌宣称，Gemini Pro 在集思广益、写作和总结内容等任务上更加有效，在六个核心基准测试中优于 OpenAI GPT-3.5。

Gemini Ultra

Gemini Ultra 是该系列中功能最强大的型号，与 Pro 版本一样，它被训练为原生多模态，并在各种代码库上进行了预训练和微调。但是目前仍无法广泛使用它。

Gemini Ultra 可以理解文本、代码和音频中的细微信息，并回答与复杂主题相关的问题。在用于测试大语言模型开发的 32 个广泛使用的基准中，Gemini Ultra 在其中 30 个基准中都保持领先。

Gemini 的性能如何？

自从谷歌首次宣布 Gemini 即将到来以来，业界就一直试图预测它的威力有多大。谷歌在《Gemini Technical Report》中分享了一些数据。

谷歌 AI 团队一直在过去几个月仔细测试 Gemini 模型，评估它在各种任务中的表现。尽管对 Gemini Nano 和 Gemini Pro 性能的了解有限，但反正报告中的数据表明 Ultra 战胜了市面上其他的大语言模型竞争对手。

Gemini Ultra 在大规模多任务语言理解 (Massive Multitask Language Understanding，MMLU) 测试中的得分约为 90%，是第一个能够超越人类专家的产品。MMLU 测试结合了物理、数学、历史和道德等 57 个不同科目来考察 AI 模型对现实世界的知识理解和解决问题的能力。

Gemini Ultra 还在新的 MMMU 基准测试中取得了 59.4% 的最高分数。该基准测试大语言模型在需要深思熟虑的推理的多模态任务上的表现。谷歌 AI 团队表示谷歌对 MMLU 的新基准方法意味着 Gemini 可以利用其推理能力在回答问题之前“三思而后行”。

谷歌表示，在没有 ORC 帮助的情况下，Gemini Ultra 的性能优于其他领先模型，突显了该解决方案的原生多模态功能。

但 Gemini 仍然会遇到其他大语言模型所面临的同样问题，例如人工智能幻觉。即使是最好的生成式人工智能模型，在以特定方式提示时也可能会出现幻觉问题。

Gemini 与 GPT 相比又如何？

由于市场对生成式人工智能解决方案和大语言模型的需求不断增长，谷歌在当前市场上面临着激烈的竞争。目前市面上其他大语言模型也在不断改进中，它们（比如Falcon 180B）的性能可能随时会超过 Gemini。

然而，对于我们大多数普通人来说，我们只关注：“它比 GPT-4 更强大吗？” GPT-4 是 OpenAI 的多模态大语言模型，几乎所有开发人员把它当作是评估大语言模型性能的基准。

谷歌发布了一个 Gemini 和 GPT-4 的性能比较结果图表。谷歌宣称 GPT-4 仅在用于日常任务的常识推理的“HellaSwag 推理”的领域优于 Gemini：GPT-4 在这方面的得分为 95.3%，而 Gemini 的得分为 87.8%。

在所有其他领域，Gemini Ultra 均名列前茅。

虽然这些统计数据仅向我们展示了 Gemini Ultra 的强大功能，但值得注意的是，谷歌还发现 Gemini 在每项多模式任务中总体而言都优于 GPT-4。不过 GPT-4 的多模态目前只能处理图像和文本。

另一方面，Gemini 可以处理视频、音频、图像和文本。随着谷歌继续训练其工具包，它的性能可能会显著超越其他各种模型。

就在我写这篇文章时，谷歌又承认其在发布会上的演示视频是经过剪辑的，不过我还是能洗一下地

，相比某些公司来说起码谷歌承认了。

是什么让 Gemini 与众不同？

当谷歌首次向大众介绍 Gemini 时，DeepMind 的联合创始人兼 CEO Demis Hassabis 表示该模型将在解决问题和智能推理方面具有先进的能力。他甚至指出，Gemini 可能会使用记忆来根据谷歌搜索对来源进行事实核查，并改进强化学习以减少幻觉内容。然而，这一切只是 Demis 的说法而已。

目前大众所知道的是，Gemini 在大语言模型市场上以多种方式将自己与竞争对手区分开来，首先是架构方面。

到目前为止，创建多模态模型的典型方法包括为不同模型训练各种组件并将它们组合在一起。Gemini 被设计为原生多模态。它经过不同模式的预训练，然后使用额外的多模态数据进行微调。

Gemini 在以下方面非常有效：

复杂的多模态推理

Gemini 1.0 复杂的多模态推理能力意味着该模型可以理解更复杂的书面和视觉信息。它在从大量数据中获取信息方面具有独特的能力。该工具甚至可以过滤数十万份文档，以惊人的速度提供最关键的信息。

另外，Gemini 可以识别和理解图像、音频、文本等，同时它还能更好地理解微妙的信息。它可以回答复杂的问题并协助人类解决从数学到物理的所有问题。

高级编码

Gemini 1.0 可以理解、生成和解释一些世界上最流行的编程语言（包括 Java、C++ 和 Go）的高质量代码。Gemini 在各种编码基准测试中表现出色，可用作高级编码系统的引擎。

例如，谷歌两年前推出了“AlphaCode”，这是第一个在编程竞赛中表现出色的人工智能代码生成系统。谷歌使用 Gemini 的特定版本创建了“AlphaCode 2”，它将这些结果提升到了一个新的水平。

与原始 AlphaCode 相比，新模型解决问题的能力几乎是原来的两倍，并且表现优于 85% 的其他竞赛参与者。

高效的可扩展性

据谷歌称，Gemini 1.0 已经使用专有的张量处理单元（TPU）在人工智能优化的基础设施上进行了大规模训练。在 TPU 上，Gemini 的运行速度非常快（有多快我也不知道）。

此外，谷歌甚至宣布即将推出新的 TPU 系统。开发人员很快将能够访问 Cloud TPU v5p 来训练自己的尖端人工智能模型。谷歌表示，这将有助于进一步加速 Gemini 的发展，并协助企业客户构建自己的 AI 解决方案。

道德与安全

随着大语言模型和生成式人工智能模型的不断发展，人们对其安全性的担忧也在不断增加。谷歌和其他 AI 公司一样，也有一套具体的“人工智能原则”，以确保其技术对用户来说是安全的、符合人类道德标准的和有保障的。

Gemini 正在经过谷歌人工智能模型中最全面的安全评估。谷歌正在与不同的专家合作，对其未来的模型进行压力测试。此外，他们还使用“真实毒性提示”等基准来诊断 Gemini 训练阶段的内容安全问题。

为了进一步限制潜在的危害，谷歌建立了专门的安全分类器来识别涉及刻板印象或暴力的内容。该团队还表示，他们正在继续解决已知的挑战，例如归因、依据和佐证。

如何访问和使用 Gemini

咱们国内群众可以直接跳过这一段内容了。

目前，Gemini 1.0 正在谷歌旗下各种产品和平台上推出。目前海外用户可以从 ChatGPT 的竞争对手 Bard 上下手尝试。

Bard 现在由 Gemini Pro 的微调版本提供支持，这是 Bard 自推出以来最大的更新。最初，它将在 170 个国家和地区提供英语版本。然而，未来应该会推出新的语言。值得注意的是，谷歌明年还将推出“Bard Advanced”。

Gemini 还将在未来几个月内出现在 Google 搜索、广告和 Duet 中。

谷歌已经开始在搜索中试验 Gemini 了，据称它可以让用户获得更快的搜索体验，延迟时间减少了 40%。

此外，Gemini Nano 将在 Pixel 8 智能手机中实现 WhatsApp 聊天记录摘要等工具中的“智能回复”功能。

有兴趣尝试 Gemini 的开发人员可以通过 Google AI Studio 的 API 或通过 Google Cloud Vertex 访问“Pro”服务。AI Studio 可能是最简单的选择，因为它是一个免费的、基于网络的开发人员工具，非常适合原型设计和快速启动应用程序。

然而，Vertex AI 允许对 Gemini 进行更全面的定制，具有完整的数据控制和额外的 Google Cloud 安全、安全和治理功能。

另一方面，Gemini Ultra 尚未上市。谷歌正在进行更多的安全和信任检查，以确保该解决方案适合当前市场。作为此过程的一部分，它正在以“测试模式”向某些开发人员和合作伙伴提供 Gemini Ultra。

与 Gemini 一起展望未来

我们还需要等待一段时间才能尝试整个 Gemini 体验和 Ultra 版本。然而，到目前为止，谷歌似乎正在朝着再次成为人工智能领域真正的市场领导者的目标迈进。

Gemini 似乎正在为谷歌的人工智能之旅设定新标准。谷歌表示，这代表着大语言模型发展新时代的开始。谷歌将继续扩展其未来版本的功能，他们已经计划在规划和记忆方面取得新的进展，并将很快增加用于批量信息处理的“上下文窗口”。

谷歌相信我们正在走向一个由“负责任的”人工智能驱动的未来。他们表示，这个未来将为全球数十亿人的创新、创造力和知识共享达到新的水平铺平道路。我们迫不及待地想看看下一代开发人员将通过像 Gemini 这样强大的解决方案来完成什么。