RTFS-Net

whaosoft143

已于 2024-03-06 14:40:04 修改

阅读量488

点赞数 6

分类专栏：人工智能文章标签：人工智能

于 2024-03-06 14:36:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29788741/article/details/136505608

版权

为音视频分离提供新视角，清华大学胡晓林团队推出RTFS-Net

视听语音分离（AVSS）技术旨在通过面部信息从混合信号中分离出目标说话者的声音。这项技术能够应用于智能助手、远程会议和增强现实等应用，改进在嘈杂环境中语音信号质量。

传统的视听语音分离方法依赖于复杂的模型和大量的计算资源，尤其是在嘈杂背景或多说话者场景下，其性能往往受到限制。为了突破这些限制，基于深度学习的方法开始被研究和应用。然而，现有的深度学习方法面临着高计算复杂度和难以泛化到未知环境的挑战。

具体来说，当前视听语音分离方法存在如下问题：

时域方法：可提供高质量的音频分离效果，但由于参数较多，计算复杂度较高，处理速度较慢。
时频域方法：计算效率更高，但与时域方法相比，历来表现不佳。它们面临三个主要挑战：

1. 缺乏时间和频率维度的独立建模。

2. 没有充分利用来自多个感受野的视觉线索来提高模型性能。

3. 对复数特征处理不当，导致丢失关键的振幅和相位信息。

为了克服这些挑战，来自清华大学胡晓林副教授团队的研究者们提出了 RTFS-Net：一种全新的视听语音分离模型。RTFS-Net 通过压缩 - 重建的方式，在提高分离性能的同时，大幅减少了模型的计算复杂度和参数数量。RTFS-Net 是第一个采用少于 100 万个参数的视听语音分离方法，也是第一个时频域多模态分离模型优于所有时域模型的方法。

论文地址：https://arxiv.org/abs/2309.17189
论文主页：https://cslikai.cn/RTFS-Net/AV-Model-Demo.html<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。