MIT又出新玩法，利用AI可轻松分离视频中的乐器声音-CSDN博客

640?wx_fmt=gif

本文由人工智能观察编译

译者：Sandy

均衡器是大概是被用来在音乐中加入低音的一种常用方式，但近日，麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员研发了一个更好的解决方案。他们的深度学习系统——PixelPlayer——可以通过人工智能来分离乐器演奏视频中的乐器声音，同时还能改变音量，让它们变得更响亮或更柔和。

经过充分训练的PixelPlayer系统，以视频作为输入，可以对相应的音频进行分割，识别声音来源，然后根据每个像素的声音进行“空间定位”，即识别剪辑片段中产生类似声波的区域。详细信息在论文《The Sound of Pixels》中有所解释，这篇论文已被欧洲计算机视觉大会（ECCV）接收，此会议将于今年9月在德国慕尼黑举行。

“我们期望中最好的情况是系统可以识别出哪种乐器会发出哪种声音，”CSAIL的博士生和该论文的共同作者Hang Zhao说道。“结果我们惊讶的发现，真的可以在像素级别上对乐器进行空间定位。这一结果给我们开辟了更多的可能性，比如只需点击一下视频就能编辑各个乐器的音频。“

640?wx_fmt=gif