Gemini API 最新进展:Gemini 2.5 Flash & Pro、Live API、Veo 2

图片

作者 / DeepMind 高级开发者关系经理 Joana Carrasqueira

今年的 Cloud Next 大会上,我们推出了一系列突破性更新与强大功能,旨在赋能广大开发者,与大家携手共创人工智能的未来。本次发布亮点包括:最新的 Gemini 2.5 思考模型,实时互动体验的 Live API 的最新进展,以及正式面向开发者开放的高质量视频生成工具 Veo 2。近期,我们面向在 Google AI Studio 中使用 Gemini API 的开发者推出了许多不容错过的重要更新,一起来看看吧。

🔗 Cloud Next

https://cloud.withgoogle.com/next/25

🔗 Google AI Studio

http://aistudio.google.com

Gemini 2.5:构建新一代应用

我们近期推出了 Gemini 2.5 Pro,这是我们迄今为止性能最佳的 AI 模型,能展示出思考模型在生成响应之前进行推理的能力。作为我们迄今为止最先进的编码模型,Gemini 2.5 Pro 能打造引人注目的 Web 应用,在开发智能体编程应用方面也表现出色。

🔗 Gemini 2.5 Pro

https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking

🔗 思考模型

https://ai.google.dev/gemini-api/docs/thinking#prompting-techniques

Gemini 2.5 Pro 已经开始赋能在 Google AI Studio 中使用 Gemini API 构建应用的开发者,以及使用 Vertex AI 的企业客户。

🔗 Google AI Studio

https://aistudio.google.com/prompts/new_chat?model=gemini-2.5-pro-preview-03-25

🔗 Gemini API

https://ai.google.dev/gemini-api/docs/models#gemini-2.5-pro-preview-03-25

🔗 Vertex AI

https://cloud.google.com/blog/products/ai-machine-learning/gemini-2-5-pro-flash-on-vertex-ai

同时,我们宣布 Gemini 2.5 Flash 即将推出。作为我们热门主力模型的演进版本,Gemini 2.5 Flash 在保持低延迟和高性价比的同时,融入了强大的思考能力。

这标志着我们朝着实现所有 Gemini 模型具备自适应思考能力这一愿景,迈出了重要一步。Gemini 2.5 模型为应用开发开辟了诸多全新的应用场景,包括支持更强大的智能体,管理多智能体系统,加速编码辅助,以及利用高达 100 万 token 的上下文输入窗口,实现对整个代码库的生成式推理。

🔗 管理多智能体系统

https://cloud.google.com/blog/products/ai-machine-learning/build-and-manage-multi-system-agents-with-vertex-ai

Veo 2 可用于生产环境

我们很高兴地宣布,Gemini API 中的 Veo 2 现已正式面向生产环境开放使用。Veo 2 具备遵循简单及复杂指令的能力,并能以丰富的视觉风格模拟真实世界的物理效果。Veo 2 使开发者能够直接使用文本和图像提示,在应用中生成高质量视频内容:

  • 文本到视频 (t2v):通过文本描述生成视频。

  • 图像到视频 (i2v):从图像生成视频,并支持可选的文本提示,以实现更精准的指导。

以 Wolf Games 为例,该公司正在构建一个生成式游戏平台,旨在创造高度个性化的互动叙事游戏体验。借助 Veo 2,他们得以构建出极具动态表现力的电影级游戏场景,显著提升了视频的真实感、动作准确度和镜头控制。Wolf Games 表示,Veo 2 将其获取理想视觉效果所需的迭代次数减少了 60% 以上,并大幅缩短了制作周期,从而加速了创意蓝图的实现。 

🔗 Wolf Games

https://techcrunch.com/2025/03/12/wolf-games-backed-by-law-order-creator-uses-ai-to-create-murder-mystery-games/

即日起,您便可在 Google AI Studio 的 Gemini API 中使用 Veo 2:

  • 质量:720p 分辨率,24 帧/秒。

  • 时长:最长 8 秒的视频片段。

  • 定价:生成的视频每秒 0.35 美元。

想立刻尝试用视频生成功能打造互动型应用吗?敬请查阅我们的文档、提示指南以及 Veo 2 入门教程。同时,欢迎了解 Vertex AI 在语音和音乐等其他模态的企业级生成媒体解决方案。 

🔗 文档

https://ai.google.dev/gemini-api/docs/video

🔗 提示指南

https://ai.google.dev/gemini-api/docs/video#prompt-guide

🔗 入门教程

https://github.com/google-gemini/cookbook/blob/main/quickstarts/Get_started_Veo.ipynb

🔗 了解

https://cloud.google.com/blog/products/ai-machine-learning/expanding-generative-media-for-enterprise-on-vertex-ai

Gemini 模型 Live API:

预览版带来全新功能

动态、实时的互动体验对于构建下一代 AI 应用至关重要。Gemini 模型的 Live API 现已推出预览版,旨在帮助开发者构建更强大、可扩展的应用,显著提升速率限制。开发者现在即可通过 Google AI Studio 和 Vertex AI 中的 Gemini API 抢先体验前沿功能。

🔗 Google AI Studio

https://aistudio.google.com/app/live

🔗 Vertex AI

https://console.cloud.google.com/freetrial?redirectPath=/vertex-ai/studio

🔗 Gemini API

https://ai.google.dev/gemini-api/docs/live

使用 Live API 构建应用与智能体,开发者能轻松实现低延迟处理流式音频、视频和文本的能力,为创建如同真人般的对话、实时会议以及监控实时场景提供理想的解决方案。从 12 月推出实验版以来,我们广泛收集了开发者的反馈,并在此次公开试用版中引入了多项备受期待的功能:

  • 支持 30 种全新语言并新增两种语音选项。

  • 支持可配置的语音活动检测 (VAD),可更灵活地自定义 VAD 解决方案。

  • 通过滑动上下文窗口实现近乎无限的会话时长。

  • 以及更多增强功能。

🔗 更多

https://ai.google.dev/gemini-api/docs/live

这些功能以及强大的工具集成 (包括搜索、代码执行和函数调用) 使 Live API 成为在高度互动型应用中使用 Gemini 2.0 Flash 等模型的理想选择。 

想进一步了解如何构建实时互动体验吗?敬请查阅我们的文档并获取 Live API 入门教程。

🔗 文档

https://ai.google.dev/gemini-api/docs/live

🔗 入门教程

https://github.com/google-gemini/cookbook/blob/main/quickstarts/Get_started_LiveAPI.ipynb

共创开发新纪元

我们对这些更新能如何挖掘开发者社区的巨大潜力感到无比振奋。从 Gemini 2.5 更为强大的思考能力,到通过 Live API 实现的实时互动,以及 Veo 2 突破性的视频生成能力,我们热切期待各位开发者能够创造出令人瞩目的创新成果!

欢迎您持续关注 "Android 开发者" 微信公众号,及时了解更多开发技术和产品更新等资讯动态!


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值