Google DeepMind发布V2A技术：突破性视听同步创作新纪元

最新推荐文章于 2024-07-12 23:11:20 发布

新加坡内哥谈技术

最新推荐文章于 2024-07-12 23:11:20 发布

阅读量435

点赞数 4

文章标签：人工智能语言模型自然语言处理

本文链接：https://blog.csdn.net/2301_79342058/article/details/139934298

版权

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

声音是丰富人类体验、增强沟通和为媒体增添情感深度不可或缺的要素。尽管AI在多个领域取得了显著进展，但要在视频生成模型中加入如人类创作般复杂和细腻的声音依然具有挑战性。为这些无声视频制作配乐是使生成影片更逼真的重要一步。

Google DeepMind推出了视频转音频（V2A）技术 (https://deepmind.google/discover/blog/generating-audio-for-video/)，实现同步视听创作。通过结合视频像素和自然语言指令，V2A为屏幕上的动作创建沉浸式音频。团队尝试了自回归和扩散方法，发现扩散方法在生成同步音视频方面的效果最为逼真和现实。

V2A技术的第一步是压缩输入视频。通过扩散模型，音频被反复清理以去除背景噪音。视觉输入和自然语言提示引导这一过程，生成符合指令的真实同步音频。音频输出过程的最后一步包括解码、生成波形并将音频与视觉数据合并。

在反复将视频和音频提示输入扩散模型之前，V2A会对它们进行编码。接下来是创建压缩音频并将其解码为波形。研究人员通过增加信息，如对话转录和AI生成的详尽声音描述注释，来补充训练过程，提高模型生成高质量音频的能力，并训练其制作特定声音。

该技术通过训练视频、音频和附加注释，学会响应转录或注释中的信息，通过将不同的音频事件与不同的视觉场景关联来生成合适的声音。V2A技术可以与视频生成模型如Veo配对，为镜头添加戏剧性配乐、真实音效或符合视频角色和基调的对话。

V2A技术能够为经典视频，如无声电影和档案片段，创建配乐，开启了创意可能性的世界。最令人兴奋的是，它可以根据用户需求为任何视频输入生成无限多的音轨。用户可以定义“正向提示”以引导输出所需声音，或“负向提示”以避免不想要的噪音。这种灵活性赋予用户对V2A音频输出前所未有的控制权，激发实验精神，帮助他们快速找到与创意愿景完美匹配的声音。

团队致力于持续研究和开发以解决一系列问题。他们意识到音频输出的质量依赖于视频输入，视频中超出模型训练分布的失真或伪影会导致明显的音频劣化。他们正在改进配音视频的唇同步。通过分析输入的转录内容，V2A旨在创造与角色口型完美同步的语音。团队也注意到，当视频模型与转录内容不一致时，会出现怪异的唇同步现象，他们正在积极解决这些问题，展示了他们对保持高标准和不断改进技术的承诺。

团队积极寻求知名创作者和电影制作人的意见，认识到他们对V2A技术发展的宝贵见解和贡献。这种合作方式确保了V2A技术能够积极影响创意社区，满足他们的需求并提升他们的作品。为了进一步保护AI生成内容不被滥用，他们在V2A研究中整合了SynthID工具箱，并对所有内容进行了水印处理，展示了他们对技术伦理使用的承诺。

新加坡内哥谈技术

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Google DeepMind发布V2A技术：突破性视听同步创作新纪元

他们意识到音频输出的质量依赖于视频输入，视频中超出模型训练分布的失真或伪影会导致明显的音频劣化。团队也注意到，当视频模型与转录内容不一致时，会出现怪异的唇同步现象，他们正在积极解决这些问题，展示了他们对保持高标准和不断改进技术的承诺。点击订阅，与未来同行！研究人员通过增加信息，如对话转录和AI生成的详尽声音描述注释，来补充训练过程，提高模型生成高质量音频的能力，并训练其制作特定声音。该技术通过训练视频、音频和附加注释，学会响应转录或注释中的信息，通过将不同的音频事件与不同的视觉场景关联来生成合适的声音。
复制链接

扫一扫