GTCRN：轻量级语音增强模型实战指南

最新推荐文章于 2025-04-04 20:24:04 发布

蒋闯中Errol

最新推荐文章于 2025-04-04 20:24:04 发布

阅读量1.3k

点赞数 22

本文链接：https://blog.csdn.net/gitblog_00478/article/details/141522595

版权

GTCRN：轻量级语音增强模型实战指南

项目地址:https://gitcode.com/gh_mirrors/gt/gtcrn

项目介绍

GTCRN（Grouped Temporal Convolutional Recurrent Network）是ICASSP2024论文提出的超低计算资源需求的语音增强模型。此项目提供官方实现，仅需大约23.7K参数，展示了在保持高性能的同时，如何极大降低模型复杂度。GTCRN适用于噪音消除，能在DNS3和VCTK-DEMAND数据集上训练得到的预训练模型，其推理过程高效，特别是在流式处理方面，在特定CPU上的实时因子（RTF）达到了约0.07。

项目快速启动

安装依赖

首先，确保你的环境已安装Python，并通过以下命令安装必要的库：

pip install -r requirements.txt

下载预训练模型

从checkpoints文件夹下载预训练模型，假设模型名为gtcrn_dns3.pth，然后你可以使用以下代码进行快速测试：

import torch
from gtcrn.infer import enhance_audio

# 假设audio_path为你的待处理音频路径
audio_path = 'path_to_your_noisy_audio.wav'
# 加载预训练模型
model = torch.load('path_to_gtcrn_dns3.pth')
# 进行音频增强
clean_audio = enhance_audio(audio_path, model)