为音视频分离提供新视角,清华大学胡晓林团队推出RTFS-Net
视听语音分离(AVSS)技术旨在通过面部信息从混合信号中分离出目标说话者的声音。这项技术能够应用于智能助手、远程会议和增强现实等应用,改进在嘈杂环境中语音信号质量。
传统的视听语音分离方法依赖于复杂的模型和大量的计算资源,尤其是在嘈杂背景或多说话者场景下,其性能往往受到限制。为了突破这些限制,基于深度学习的方法开始被研究和应用。然而,现有的深度学习方法面临着高计算复杂度和难以泛化到未知环境的挑战。
具体来说,当前视听语音分离方法存在如下问题:
-
时域方法:可提供高质量的音频分离效果,但由于参数较多,计算复杂度较高,处理速度较慢。
-
时频域方法:计算效率更高,但与时域方法相比,历来表现不佳。它们面临三个主要挑战:
1. 缺乏时间和频率维度的独立建模。
2. 没有充分利用来自多个感受野的视觉线索来提高模型性能。
3. 对复数特征处理不当,导致丢失关键的振幅和相位信息。
为了克服这些挑战,来自清华大学胡晓林副教授团队的研究者们提出了 RTFS-Net:一种全新的视听语音分离模型。RTFS-Net 通过压缩 - 重建的方式,在提高分离性能的同时,大幅减少了模型的计算复杂度和参数数量。RTFS-Net 是第一个采用少于 100 万个参数的视听语音分离方法,也是第一个时频域多模态分离模型优于所有时域模型的方法。
-
论文地址:https://arxiv.org/abs/2309.17189
-
论文主页:https://cslikai.cn/RTFS-Net/AV-Model-Demo.html<