以假乱真，MIT基于深度学习的新算法给视频配音

最新推荐文章于 2024-01-30 20:51:42 发布

周建丁

最新推荐文章于 2024-01-30 20:51:42 发布

阅读量176

点赞数

文章标签：深度学习神经网络计算机视觉物体识别

本文链接：https://blog.csdn.net/happytofly/article/details/80123999

版权

原文：MIT’s New AI Can (Sort of) Fool Humans With Sound Effects
译者：刘翔宇审校：刘帝伟
责编：周建丁（zhoujd@csdn.net）

图片描述

神经网络已经在玩游戏方面超过了我们，并且也应用于智能手机照片的管理以及邮件回复方面。此外，它们还能在好莱坞谋得一职。

在MIT的计算机科学和人工智能实验室（CSAIL），一个由6位研究人员组成的小组创建了一套机器学习系统，它可以将声音效果与视频剪辑匹配。别高兴得太早，CSAIL的算法还不能在任何旧的视频上工作，而且它产生的声音效果也是有限的。对于该项目，CSAIL的博士生Andrew Owens和研究生Phillip Isola将他们用鼓槌重击一堆东西录制成视频，包括树桩、桌子、椅子、水坑、楼梯扶手、枯叶，还有肮脏的地面。

该小组将最初的1000个批量视频输入到它的AI算法中。通过分析视频中物体的物理外观，鼓槌的每次运动轨迹，还有最终的声音，计算机能够学习到物理物体和它被击中所发声音之间的联系。然后，通过“观看”物体被鼓槌重击，轻敲和刮蹭时的不同视频，这个系统可以计算出伴随每个剪辑相应的音调、音量以及的声音听觉特性。

视频：https://youtu.be/0FW99AQmMc8

该算法本身不产生声音——它只是从成千上万的音频剪辑数据库中获取数据。此外，声音效果也不是基于视觉匹配来选择；你可以在上面视频中1:20处看到，该算法有自己的创意。它随着沙沙作响的塑料袋来选择声音效果，在灌木从彻底被鼓槌敲击时直接给出声音效果。

Owens说，研究小组使用卷积神经网络来分析视频帧，递归神经网络来选择对应的音频。

图片描述

它们的学习过程主要来自于Caffe深度学习框架，该项目也由美国国家科学基金会（National Science Foundation and Shell）资助。小组的一名成员在谷歌研究院工作，Owens则是微软研究奖学金计划的一员。

Owens说，“我们几乎已经把现有的深度学习技术运用到了新领域，我们的目标不是开发新的深度学习方法。”

听音辨物

为视频匹配逼真声音是音效师的主要工作领域——后期制作音频向导，他们记录你在一部好莱坞电影中看到（和听到）的脚步声、门的嘎吱声、腾空横踢。

一位出色的音效师可以将声音精确匹配给视频，让观众误以为这声音是实际捕捉到的。

MIT的机器人还没有这么娴熟。该研究小组进行了一项在线调查，为4000名参与者展示了同一视频配上原始音频和算法生成的声音版本，然后让他们选择哪个视频里的声音是真实的。有22%的人选择了假音频——还远不完美，但效果仍是之前版本算法的两倍。

根据Owens所述，那些测试结果是一个好兆头，预示着计算机视觉算法可以检测物体的组成，以及轻敲、重击、刮蹭物体时产生的不同物理效果。不过，还是有些物体系统不能正确处理。有些时候，系统会认为鼓槌在撞击某一物体，但实际上并没有，比起对更坚实物体产生的声音效果，更多的人更容易被对落叶和灰尘产生的声音效果愚弄。

这个项目不仅仅是为了产生有趣的声音效果，它背后还有更深层的原因。Owens认为，如果该系统已经非常完善，那么计算机视觉技术就可以帮助机器人通过分析物体发出的声音来识别它的材质和物理属性。Owens说，“我们希望这些算法通过观察这些物理相互作用以及响应来学习，你可以把它想象成婴儿那样通过敲打、跺脚和玩耍来学习世界。”