开源项目亮点推荐：无真实视觉流的伪视觉语音降噪-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00139/article/details/142125345

开源项目亮点推荐：无真实视觉流的伪视觉语音降噪

pseudo-visual-speech-denoising Official code for the paper "Visual Speech Enhancement Without A Real Visual Stream" published at WACV 2021 项目地址: https://gitcode.com/gh_mirrors/ps/pseudo-visual-speech-denoising

在当前高度数字化的时代，清晰的通信比任何时候都更为关键。为此，我们带来了一个令人兴奋的开源项目——《无真实视觉流的视觉语音增强》。该项目基于其同名论文，在2021年WACV会议上发表，旨在提升并优化音频质量，即便在没有直接视觉信息的情况下。

项目介绍

这个创新的项目通过生成合成的视觉流来利用唇部运动的优势，从而达到对任何真实世界音频或视频中的噪音进行降噪的目的。无需特定的语言限制，也不受限于说话者，它提供了一种通用且高效的解决方案，让被噪声污染的对话再次变得清晰可闻。

技术剖析

采用先进的深度学习技术，该方案结合了无监督学习和迁移学习的理念。核心在于训练一个模型模拟真实的唇部动作以配合任何音频输入，即使这些音频含杂音。这种方法不仅强化了语音信号处理的能力，而且实现了跨语言、跨场景的广泛适用性。项目代码兼容Python 3.7.4，并依赖ffmpeg和一系列精心挑选的库，确保高效运行。