谷歌推出Gemini语言模型,碾压GPT-4!

谷歌刚刚在其人工智能之旅中迈出了下一步,推出了最新、最伟大的人工智能模型Gemini 1.0!

详细信息请看:https://fostmar.online/archives/317/

谷歌推出Gemini语言模型,碾压GPT-4!谷歌Gemini 1.0革新,推出Gemini Ultra、Gemini Pro和Gemini Nano模型。Gemini Ultra强大但慢,Gemini Pro通用,Gemini Nano高效。Gemini模型在多领域与ChatGPT竞争,尤其Gemini Pro已应用于Bard。Gemini模型预计将在2024年通过Bard Advanced发挥更大作用。谷歌Gemini的灵活定价将融入Google产品,如搜索和Chrome。谷歌Gemini模型在AI领域显示出强大的性能和潜力。icon-default.png?t=N7T8https://fostmar.online/archives/317/

谷歌Gemini.webp

一、什么是Gemini?

Google 已经推出了其大型语言模型(LLM)Gemini 的三个不同版本,共同构成了“Gemini 1.0”,即该软件的首个版本。这些版本分别是:

  • Gemini Ultra — 功能最强大,但速度较慢的型号。
  • Gemini Pro — 具有最佳扩展性和通用性;目前被用于 Bard。
  • Gemini Nano — 最高效的型号,功能虽然较弱,但非常适合设备上的任务。

目前,Google 已经发布了 Gemini Pro,并在 Bard 中使用。此外,Google 还为 Pixel 8 推出了 Gemini Nano,成为第一款使用这一技术的手机,为“录音机中的总结”应用程序和 WhatsApp 的智能回复等新功能铺平了道路。

至于 Gemini Ultra,谷歌仍在进行调整,计划在 2024 年发布 Bard 的新版本 Bard Advanced 时推出。

Google 还计划在 2024 年进一步扩展 Gemini 的应用范围,尽管具体细节尚未公布,但他们提到这将覆盖搜索、广告、Chrome 和 Duet AI 等主要产品领域。据谷歌称,他们已经在搜索中使用 Gemini 进行“实验”,并通过它实现了将延迟减少 40% 的成果。

二、Gemini vs ChatGPT

谷歌声称 Gemini 能够超越 ChatGPT。事实上,超越 ChatGPT 是 Gemini 的一大卖点。但目前看来,Gemini 驱动的 Bard 是否能实现这一宣传目标还有待观察。

谷歌声称,只有“Ultra”版本的 Gemini 才能击败 ChatGPT。根据早期报告,Ultra 版本确实在多个领域中略胜一筹。然而,这个版本要到 2024 年才能正式发布。目前,人们更多地将 Gemini Pro 与 ChatGPT 的免费版本 GPT-3.5 进行比较,而且对比结果并不尽如人意。

能力分类基准测试描述更高分数更好Gemini UltraGPT-4
通用MMLU57个主题(包括STEM、人文等)的问题表示90.0%86.4%(5-shot, 报告)
推理Big-Bench Hard需要多步骤推理的多样化挑战性任务83.6%(3-shot)83.1%(3-shot, API)
阅读理解DROP阅读理解(F1分数)82.4(变量shots)80.9(3-shot, 报告)
常识推理HellaSwag日常任务的常识推理87.8%(10-shot*)95.3%(10-shot*, 报告)
数学GSM8K基础算术操作(包括小学数学问题)94.4%(maj1@32)92.0%(5-shot CoT, 报告)
数学MATH挑战性数学问题(包括代数、几何、预备微积分等)53.2%(4-shot)52.9%(4-shot, API)
编码HumanEvalPython代码生成74.4%(0-shot, IT*)67.0%(0-shot*, 报告)
编码Natural2CodePython代码生成,未泄露在网上的新保留数据集,类似HumanEval74.9%(0-shot)73.9%(0-shot, API)
图像MMMU大学级多学科推理问题59.4%(0-shot pass@1, 仅Gemini Ultra*)56.8%(0-shot pass@1, GPT-4V)
图像VQAv2自然图像理解77.8%(0-shot, 仅Gemini Ultra*)77.2%(0-shot, GPT-4V)
图像TextVQA自然图像中的OCR82.3%(0-shot, 仅Gemini Ultra*)78.0%(0-shot, GPT-4V)
图像DocVQA文档理解90.9%(0-shot, 仅Gemini Ultra*)88.4%(0-shot, GPT-4V)
图像Infographic VQA信息图表理解80.3%(0-shot, 仅Gemini Ultra*)75.1%(0-shot, GPT-4V)
图像MathVista视觉环境中的数学推理53.0%(0-shot, 仅Gemini Ultra*)49.9%(0-shot, GPT-4V)
视频VATEX英语视频字幕(CIDEr)62.7(4-shot, Gemini Ultra)56.0(4-shot, DeepMind Flamingo)
视频Perception Test MCQA视频问答54.7%(0-shot, Gemini Ultra)46.3%(0-shot, SeViLA)
音频CoVoST 2(21种语言)自动语音翻译(BLEU分数)40.1(Gemini Pro)29.1(Whisper v2)
音频FLEURS(62种语言)自动语音识别(基于错误率,越低越好)7.6%(Gemini Pro)17.6%(Whisper v3)

例如,《The Verge》的 Nilay Patel 曾指出,他曾向由 Gemini 驱动的 Bard 提出重要问题,结果 Bard 自信地提供了不存在的链接。《大西洋月刊》的 Matteo Wong 则认为,尽管 Gemini 在多数指标上都超过了 GPT-4,但这只是一次“迭代进步”,并非颠覆性的飞跃。

尽管 ChatGPT 也有其缺陷,比如偏好人工智能幻觉并存在一些需要修复的漏洞,但谷歌仍需证明 Gemini 真的能给 ChatGPT 用户留下深刻印象。至少到目前为止,它还没有做到这一点。

三、Gemini 与 ChatGPT 定价

Gemini 是 Google 的一项增值服务,将被整合到众多产品中,从大家都在使用的搜索引擎到 Chrome 浏览器。这些服务中的许多是免费的,尽管技术上你需要为广告数据付费。

目前,你可以免费以有限的方式使用 Gemini。体验 Gemini 最简单的方法是通过 Bard,此外,你还可以在 Pixel 8 中体验 Gemini。但未来,这项 AI 工具可能会成为付费服务的一部分。目前还不清楚它会成为一个付费附加组件,还是会被包含在某些企业服务中。

与此相比,ChatGPT 拥有更简单的定价模式。任何人都可以通过分享电子邮件地址和电话号码来免费注册。此外,还有每月 20 美元的 ChatGPT Plus 付费等级,提供更高级的 LLM 服务和一些需要额外付费的 ChatGPT 插件。最后,还有面向企业的 ChatGPT 层,提供按需定价。

目前,谷歌已在其数十亿用户每天使用的免费产品中使用人工智能,包括搜索、YouTube、Gmail、谷歌地图、Google Play 和 Android。不久的将来,谷歌可能会悄悄地在这些服务中推出 Gemini。从一方面来看,你无需为每月订阅支付额外费用,但另一方面,你可能无法完全避免使用 Gemini。

四、Gemini 与 ChatGPT:数据源和语言模型

目前,Bard 聊天机器人平台由 Bard LLM 和 Gemini Pro LLM 提供支持。Gemini 系列的全面推出将是一个缓慢的过程,可能会涉及旧的法律硕士与更新、更高效的 Gemini LLM 的类似组合。对于用户来说,这一切都将在幕后进行。

当 Ultra 在 2024 年发布时,它将挑战 ChatGPT 的地位。测试显示,它已在 32 个类别中的 30 个类别中超越了 OpenAI 的模型。

“我们最强大的模型 Gemini Ultra 在 32 个基准测试中的 30 个中提升了最先进水平,包括 12 个流行的文本和推理基准测试中的 10 个、9 个图像理解基准测试中的 9 个、6 个视频理解基准测试中的 6 个以及 5 个语音识别和语音翻译基准测试中的 5 个。” – Jeff Dean,谷歌 DeepMind 首席科学家。

与此同时,ChatGPT 的数据模型则是直接从互联网上获取的公开数据。GPT-3.5 和 GPT-4 模型都使用了截至 2021 年 9 月的数据。

  • 48
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值