作者 / DeepMind 高级开发者关系经理 Joana Carrasqueira
今年的 Cloud Next 大会上,我们推出了一系列突破性更新与强大功能,旨在赋能广大开发者,与大家携手共创人工智能的未来。本次发布亮点包括:最新的 Gemini 2.5 思考模型,实时互动体验的 Live API 的最新进展,以及正式面向开发者开放的高质量视频生成工具 Veo 2。近期,我们面向在 Google AI Studio 中使用 Gemini API 的开发者推出了许多不容错过的重要更新,一起来看看吧。
🔗 Cloud Next
https://cloud.withgoogle.com/next/25
🔗 Google AI Studio
http://aistudio.google.com
Gemini 2.5:构建新一代应用
我们近期推出了 Gemini 2.5 Pro,这是我们迄今为止性能最佳的 AI 模型,能展示出思考模型在生成响应之前进行推理的能力。作为我们迄今为止最先进的编码模型,Gemini 2.5 Pro 能打造引人注目的 Web 应用,在开发智能体编程应用方面也表现出色。
🔗 Gemini 2.5 Pro
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking
🔗 思考模型
https://ai.google.dev/gemini-api/docs/thinking#prompting-techniques
Gemini 2.5 Pro 已经开始赋能在 Google AI Studio 中使用 Gemini API 构建应用的开发者,以及使用 Vertex AI 的企业客户。
🔗 Google AI Studio
https://aistudio.google.com/prompts/new_chat?model=gemini-2.5-pro-preview-03-25
🔗 Gemini API
https://ai.google.dev/gemini-api/docs/models#gemini-2.5-pro-preview-03-25
🔗 Vertex AI
https://cloud.google.com/blog/products/ai-machine-learning/gemini-2-5-pro-flash-on-vertex-ai
同时,我们宣布 Gemini 2.5 Flash 即将推出。作为我们热门主力模型的演进版本,Gemini 2.5 Flash 在保持低延迟和高性价比的同时,融入了强大的思考能力。
这标志着我们朝着实现所有 Gemini 模型具备自适应思考能力这一愿景,迈出了重要一步。Gemini 2.5 模型为应用开发开辟了诸多全新的应用场景,包括支持更强大的智能体,管理多智能体系统,加速编码辅助,以及利用高达 100 万 token 的上下文输入窗口,实现对整个代码库的生成式推理。
🔗 管理多智能体系统
https://cloud.google.com/blog/products/ai-machine-learning/build-and-manage-multi-system-agents-with-vertex-ai
Veo 2 可用于生产环境
我们很高兴地宣布,Gemini API 中的 Veo 2 现已正式面向生产环境开放使用。Veo 2 具备遵循简单及复杂指令的能力,并能以丰富的视觉风格模拟真实世界的物理效果。Veo 2 使开发者能够直接使用文本和图像提示,在应用中生成高质量视频内容:
文本到视频 (t2v):通过文本描述生成视频。
图像到视频 (i2v):从图像生成视频,并支持可选的文本提示,以实现更精准的指导。
以 Wolf Games 为例,该公司正在构建一个生成式游戏平台,旨在创造高度个性化的互动叙事游戏体验。借助 Veo 2,他们得以构建出极具动态表现力的电影级游戏场景,显著提升了视频的真实感、动作准确度和镜头控制。Wolf Games 表示,Veo 2 将其获取理想视觉效果所需的迭代次数减少了 60% 以上,并大幅缩短了制作周期,从而加速了创意蓝图的实现。
🔗 Wolf Games
https://techcrunch.com/2025/03/12/wolf-games-backed-by-law-order-creator-uses-ai-to-create-murder-mystery-games/
即日起,您便可在 Google AI Studio 的 Gemini API 中使用 Veo 2:
质量:720p 分辨率,24 帧/秒。
时长:最长 8 秒的视频片段。
定价:生成的视频每秒 0.35 美元。
想立刻尝试用视频生成功能打造互动型应用吗?敬请查阅我们的文档、提示指南以及 Veo 2 入门教程。同时,欢迎了解 Vertex AI 在语音和音乐等其他模态的企业级生成媒体解决方案。
🔗 文档
https://ai.google.dev/gemini-api/docs/video
🔗 提示指南
https://ai.google.dev/gemini-api/docs/video#prompt-guide
🔗 入门教程
https://github.com/google-gemini/cookbook/blob/main/quickstarts/Get_started_Veo.ipynb
🔗 了解
https://cloud.google.com/blog/products/ai-machine-learning/expanding-generative-media-for-enterprise-on-vertex-ai
Gemini 模型 Live API:
预览版带来全新功能
动态、实时的互动体验对于构建下一代 AI 应用至关重要。Gemini 模型的 Live API 现已推出预览版,旨在帮助开发者构建更强大、可扩展的应用,显著提升速率限制。开发者现在即可通过 Google AI Studio 和 Vertex AI 中的 Gemini API 抢先体验前沿功能。
🔗 Google AI Studio
https://aistudio.google.com/app/live
🔗 Vertex AI
https://console.cloud.google.com/freetrial?redirectPath=/vertex-ai/studio
🔗 Gemini API
https://ai.google.dev/gemini-api/docs/live
使用 Live API 构建应用与智能体,开发者能轻松实现低延迟处理流式音频、视频和文本的能力,为创建如同真人般的对话、实时会议以及监控实时场景提供理想的解决方案。从 12 月推出实验版以来,我们广泛收集了开发者的反馈,并在此次公开试用版中引入了多项备受期待的功能:
支持 30 种全新语言并新增两种语音选项。
支持可配置的语音活动检测 (VAD),可更灵活地自定义 VAD 解决方案。
通过滑动上下文窗口实现近乎无限的会话时长。
以及更多增强功能。
🔗 更多
https://ai.google.dev/gemini-api/docs/live
这些功能以及强大的工具集成 (包括搜索、代码执行和函数调用) 使 Live API 成为在高度互动型应用中使用 Gemini 2.0 Flash 等模型的理想选择。
想进一步了解如何构建实时互动体验吗?敬请查阅我们的文档并获取 Live API 入门教程。
🔗 文档
https://ai.google.dev/gemini-api/docs/live
🔗 入门教程
https://github.com/google-gemini/cookbook/blob/main/quickstarts/Get_started_LiveAPI.ipynb
共创开发新纪元
我们对这些更新能如何挖掘开发者社区的巨大潜力感到无比振奋。从 Gemini 2.5 更为强大的思考能力,到通过 Live API 实现的实时互动,以及 Veo 2 突破性的视频生成能力,我们热切期待各位开发者能够创造出令人瞩目的创新成果!
欢迎您持续关注 "Android 开发者" 微信公众号,及时了解更多开发技术和产品更新等资讯动态!