不能输的战争：谷歌的Veo能否成功阻击OpenAI的Sora？

本文链接：https://blog.csdn.net/ponderai/article/details/138954901

在2024年谷歌I/O大会上，谷歌宣布推出Veo，这是一款能够根据文本、图像或视频提示生成高清视频的AI视频合成模型。Veo具有生成1080p分辨率、时长超过一分钟的视频的能力，并能根据书面指令编辑视频，但目前尚未向公众广泛发布。

据介绍，Veo能够使用文本命令编辑现有视频，并在视频帧间保持视觉一致性。此外，该模型能够根据单个提示或一系列构成叙事的提示，生成长达60秒及以上的视频序列。公司表示，Veo能够生成详细的场景，并应用多种电影效果，如时间推移、空中镜头等。

自从OpenAI在2022年推出图像生成工具DALL-E 2以来，谷歌和其他科技巨头陆续推出了多种图像和视频合成模型，旨在让用户能够仅通过输入文字描述来创建图像或视频。这些技术虽然尚在不断完善中，但其生成能力已显著提升。

OpenAI的视频生成器Sora在今年2月首次亮相，当时其表现令行业内多数观察者印象深刻，甚至促使电影制作人Tyler Perry搁置其工作室的扩建计划。尽管如此，OpenAI至今尚未向广泛用户开放Sora的使用，仅限于少数测试者。

而谷歌的Veo似乎有望达到与Sora相媲美的视频生成效果。尽管公众尚未亲自体验Veo，但可以从谷歌提供的演示视频中窥见一斑，包括牛仔骑马、快速移动的郊区街道镜头、烧烤肉串和向日葵绽放等场景。

Google Veo：cowboy sun

值得注意的是，Veo在生成人物视频时尚未展示详细描述，这一直是AI视频模型面临的难题，因为生成的人物往往容易出现变形。

Veo在技术上建立在谷歌此前的视频生成模型基础之上，包括生成查询网络（GQN）、DVD-GAN、Imagen-Video等。为了提高生成质量和效率，Veo的训练数据包括了更详细的视频描述，并采用了压缩的“潜在”视频表示形式。

Google Veo：elephant

谷歌表示，Veo特别支持电影制作指令。例如，用户可以命令Veo在一个海岸线的空中镜头中添加皮划艇，Veo能够根据这些命令生成新的、经过编辑的视频。

虽然演示看起来一眼就令人印象深刻（特别是与Will Smith吃意大利面相比），谷歌承认AI视频生成是困难的。“在视频生成模型中保持视觉一致性可能是一个挑战，”公司写道。“角色、对象甚至整个场景都可能在帧之间闪烁、跳跃或意外变形，这会破坏观看体验。”

Google Veo：sunflower

谷歌已经尝试通过“尖端潜在扩散变换器”来减轻这些缺点，这基本上是没有具体细节的营销话术。但公司对这个模型足够自信，正在与演员Donald Glover及其工作室Gilga合作，制作一部即将首映的AI生成演示电影。

接下来，Veo将通过Google的AI Test Kitchen网站上的一个新实验工具VideoFX向选定的创作者开放。创作者可以加入VideoFX的等待列表，有可能在未来几周内获得使用Veo功能的权限。谷歌计划将Veo的一些功能整合到YouTube Shorts和其他产品中。

谷歌尚未透露Veo的训练数据来源，但表示正在对Veo采取“负责任”的方法。所有通过Veo创建的视频都将使用谷歌的先进水印和识别工具SynthID进行标记，并通过安全过滤器和记忆检查过程，以减少隐私、版权和偏见方面的风险。

不能输的战争：谷歌的Veo能否成功阻击OpenAI的Sora？｜TodayAI