Gemini 2.5 推动视频理解进入新时代

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

此外,该模型在一些高难度任务上(例如 YouCook2 的密集字幕生成、QVHighlights 的关键时刻检索)表现可媲美专业微调模型。而对于对成本敏感的应用,Gemini 2.5 Flash 则提供了极具竞争力的替代方案。


Gemini 2.5 的技术突破

Gemini 2.5 是首个能够原生结合音频、视觉、代码与其他数据格式的多模态模型,开启了全新的视频+代码处理能力。


应用实例一:将视频转化为交互式应用

Gemini 2.5 Pro 解锁了视频到交互式应用的全新可能。在 Google AI Studio 中,Video to Learning App 启动项目展示了如何使视频学习更具效果与互动性。

使用流程如下:

  1. 用户提供一个 YouTube 视频链接与分析提示;
  2. Gemini 2.5 Pro 分析视频并生成学习应用的详细规格说明;
  3. 同一个模型随后根据规格自动生成应用程序代码。

在教育与互动内容生成领域,Gemini 2.5 Flash 也展现出强大能力。


应用实例二:p5.js 动画自动生成

Gemini 2.5 Pro 还能从视频中自动提取信息并生成动画,例如:

  • 输入 Project Astra 视频;
  • 提示:“用 p5.js 创建一个动画,展示视频中出现的不同地标”;
  • 模型根据视频顺序生成动画代码,自动还原地标出现的时间线。


应用实例三:视频中“关键时刻”的检索与描述

在处理长视频(如 Google Cloud Next '25 开幕演讲)时,Gemini 2.5 Pro 可基于音频和视觉信号准确识别并标注多个重要片段(如产品展示),其精度远超此前系统。


应用实例四:视频中的时间推理与计数

凭借其先进的片段识别能力,Gemini 2.5 Pro 还可执行细粒度的时间推理任务。例如:

  • 在 Project Astra 视频中,模型准确统计主角使用手机的 17 次行为
  • 展示了其对视频中时间关系与动作频次的敏感识别能力。


构建视频智能应用的方式

Gemini 2.5 Pro 与 Flash 的视频理解功能现已支持:

  • Google AI Studio
  • Gemini API
  • Vertex AI

其中,Gemini API 支持 YouTube 视频输入,允许开发者从全球数十亿视频中构建应用。

新版本 API 还加入了 “低分辨率媒体处理参数”,在约 200 万 token 上下文限制下,可处理 6 小时以上视频,大幅降低成本,同时保持与高精度模型相当的性能(如在 VideoMME 上达到 84.7% vs 85.2% 的准确率)。


团队表示,社区中已有许多富有创意的视频应用正在涌现,对未来的创新充满期待。Gemini 2.5 正在重新定义人类与视频的互动方式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值