Gemini 2.5 推动视频理解进入新时代

新加坡内哥谈技术

于 2025-05-13 23:32:06 发布

阅读量605

点赞数 16

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_79342058/article/details/147936325

版权

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

此外，该模型在一些高难度任务上（例如 YouCook2 的密集字幕生成、QVHighlights 的关键时刻检索）表现可媲美专业微调模型。而对于对成本敏感的应用，Gemini 2.5 Flash 则提供了极具竞争力的替代方案。

Gemini 2.5 的技术突破

Gemini 2.5 是首个能够原生结合音频、视觉、代码与其他数据格式的多模态模型，开启了全新的视频+代码处理能力。

应用实例一：将视频转化为交互式应用

Gemini 2.5 Pro 解锁了视频到交互式应用的全新可能。在 Google AI Studio 中，Video to Learning App 启动项目展示了如何使视频学习更具效果与互动性。

使用流程如下：

用户提供一个 YouTube 视频链接与分析提示；
Gemini 2.5 Pro 分析视频并生成学习应用的详细规格说明；
同一个模型随后根据规格自动生成应用程序代码。

在教育与互动内容生成领域，Gemini 2.5 Flash 也展现出强大能力。

应用实例二：p5.js 动画自动生成

Gemini 2.5 Pro 还能从视频中自动提取信息并生成动画，例如：

输入 Project Astra 视频；
提示：“用 p5.js 创建一个动画，展示视频中出现的不同地标”；
模型根据视频顺序生成动画代码，自动还原地标出现的时间线。

应用实例三：视频中“关键时刻”的检索与描述

在处理长视频（如 Google Cloud Next '25 开幕演讲）时，Gemini 2.5 Pro 可基于音频和视觉信号准确识别并标注多个重要片段（如产品展示），其精度远超此前系统。

应用实例四：视频中的时间推理与计数

凭借其先进的片段识别能力，Gemini 2.5 Pro 还可执行细粒度的时间推理任务。例如：

在 Project Astra 视频中，模型准确统计主角使用手机的 17 次行为；
展示了其对视频中时间关系与动作频次的敏感识别能力。

构建视频智能应用的方式

Gemini 2.5 Pro 与 Flash 的视频理解功能现已支持：

Google AI Studio
Gemini API
Vertex AI

其中，Gemini API 支持 YouTube 视频输入，允许开发者从全球数十亿视频中构建应用。

新版本 API 还加入了 “低分辨率媒体处理参数”，在约 200 万 token 上下文限制下，可处理 6 小时以上视频，大幅降低成本，同时保持与高精度模型相当的性能（如在 VideoMME 上达到 84.7% vs 85.2% 的准确率）。

团队表示，社区中已有许多富有创意的视频应用正在涌现，对未来的创新充满期待。Gemini 2.5 正在重新定义人类与视频的互动方式。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。