无中生有！没有视觉信号的视觉语音增强

最新推荐文章于 2024-09-22 11:42:19 发布

我爱计算机视觉

最新推荐文章于 2024-09-22 11:42:19 发布

阅读量163

点赞数

文章标签：算法人工智能机器学习 python 深度学习

今天跟大家分享一篇非常有意思也很有用的文章，是WACV 2021的录用论文Visual Speech Enhancement Without A Real Visual Stream。该文研究涉及计算机视觉与语音处理的交叉。

论文信息：

作者来自：印度 IIIT Hyderabad 和英国巴斯大学。

语音增强是语音处理的经典研究内容，以往的语音增强往往只将语音作为输入信号，这在现实世界的嘈杂环境中往往效果不佳。

近年来一种视觉辅助的语音增强技术取得了突破，通过跟踪视频中人物口型，可以较好的辅助过滤环境噪声。但其需要人物正脸在视频中，使用场景较为狭窄，毕竟大多数场景下，没有人物正脸，甚至没有视觉信息辅助。

该文学者指出，实际上根据语音进行唇语合成已经是一个较为成熟的技术，在现有框架下，可以直接使用语音信号本身合成人物口型的视频，进而辅助语音增强。

以下视频展示了最终语音增强的效果：

该文在多个数据集上取得了SOTA的结果，并且该技术可以用于任何语言的语音增强，但由于其中含有视觉生成部分，估计相比传统算法时间开销较大。作者已经开源了代码，感兴趣的朋友可以试一下。

论文：

https://arxiv.org/abs/2012.10852

代码：

https://github.com/Sindhu-Hegde/pseudo-visual-speech-denoising

我爱计算机视觉

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。