Parakeet TDT 0.6B V2 - 高精度英语语音识别模型

最新推荐文章于 2025-05-13 20:33:05 发布

编程乐园

最新推荐文章于 2025-05-13 20:33:05 发布

阅读量650

点赞数 25

分类专栏： # AI 开源项目文章标签：语音识别人工智能 python ai Parakeet TDT 0.6B

本文链接：https://blog.csdn.net/lovechris00/article/details/147748100

版权

AI 开源项目专栏收录该内容

224 篇文章

订阅专栏

一、关于 Parakeet TDT 0.6B V2

基础信息

Hugging Face：https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2
Demo体验：在线演示空间
开发团队：NVIDIA
模型类型：专业型语音识别模型
License： CC-BY-4.0
发布日期：2025-05-01

模型简介

parakeet-tdt-0.6b-v2 是一个拥有6亿参数的自动语音识别（ASR）模型，专为高质量的英语转录而设计，支持标点符号、大小写以及精确的时间戳预测。点击此处体验演示：https://huggingface.co/spaces/nvidia/parakeet-tdt-0.6b-v2

该模型是FastConformer架构[1]的XL变体，集成了TDT[2]解码器，并通过全注意力机制训练，能够高效地单次转录长达24分钟的音频片段。在HF-Open-ASR排行榜上，该模型以128的批次大小实现了3380的RTFx性能。注意：RTFx性能可能因数据集音频时长和批次大小而异。

核心特性

精确的词级时间戳预测
自动标点符号和大小写处理
对口语数字和歌词转录具有鲁棒性

更多信息请参阅模型架构章节及NeMo文档。

本模型已开放商业/非商业用途。

二、技术说明

模型架构

架构类型：

FastConformer-TDT

网络架构：

该模型基于FastConformer编码器架构[1]和TDT解码器[2]开发
该模型包含6亿个模型参数

输入

输入类型: 16kHz 音频
输入格式: .wav 和 .flac 音频格式
输入参数: 一维(音频信号)
其他输入相关属性: 单声道音频

输出

输出类型： 文本
输出格式： 字符串
输出参数： 一维（文本）
与输出相关的其他属性： 包含标点符号和大写规则

我们的AI模型专为NVIDIA GPU加速系统设计和/或优化。通过利用NVIDIA的硬件（如GPU核心）和软件框架（如CUDA库），该模型相比纯CPU解决方案能实现更快的训练和推理速度。

三、快速使用

如需训练、微调或测试该模型，您需要安装 NVIDIA NeMo。建议在安装最新版 PyTorch 后再进行安装。

pip install -U nemo_toolkit['asr']

该模型可在NeMo工具包[3]中使用，可作为预训练检查点用于推理或在其他数据集上进行微调。

1、自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")

2、使用 Python 进行转录

首先，让我们获取一个样本

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后只需执行：

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

3、带时间戳的转录

要进行带时间戳的转录：

output = asr_model.transcribe(['2086-149220-0033.wav'], timestamps=True)
# by default, timestamps are enabled for char, word and segment level
word_timestamps = output[0].timestamp['word'] # word level timestamps for first sample
segment_timestamps = output[0].timestamp['segment'] # segment level timestamps
char_timestamps = output[0].timestamp['char'] # char level timestamps

for stamp in segment_timestamps:
    print(f"{stamp['start']}s - {stamp['end']}s : {stamp['segment']}")

四、训练与评估数据集

1、训练

该模型使用 NeMo 工具包 [3] 进行训练，具体采用以下策略：

基于 LibriLight 数据集 [7] 预训练的 wav2vec SSL 检查点进行初始化
在 128 块 A100 GPU 上训练了 150,000 步
使用温度采样值 0.5 对数据集语料进行平衡处理
第二阶段微调在 4 块 A100 GPU 上进行，使用约 500 小时高质量的 NeMo ASR Set 3.0 人工转录数据，共训练 2,500 步

训练过程采用以下示例脚本和 TDT 配置文件完成。

分词器通过此脚本基于训练集文本构建。

2、训练数据集

该模型基于Granary数据集进行训练，该数据集包含约12万小时的英语语音数据：

1万小时来自人工转录的NeMo ASR Set 3.0，包括：
- LibriSpeech（960小时）
- Fisher语料库
- 国家语音语料库第一部分
- VCTK
- VoxPopuli（英语）
- Europarl-ASR（英语）
- 多语言LibriSpeech（MLS英语）- 2000小时子集
- Mozilla Common Voice（v7.0）
- AMI
11万小时来自伪标注数据：
- YTC（YouTube-Commons）数据集[4]
- YODAS数据集[5]
- Librilight[7]

所有转录文本均保留标点符号和大小写规范。Granary数据集将在2025年Interspeech会议展示后公开提供。

各数据集采集方式

混合模式：自动采集、人工采集

各数据集标注方式

混合模式：合成标注、人工标注

数据集特性：

包含来自多源噪声环境的鲁棒性数据
单声道，16kHz采样率数据

3、评估数据集

本模型使用Huggingface开放ASR排行榜数据集进行性能评估。

各数据集的数据收集方法

人工采集

各数据集的标注方法

人工标注

数据集特性：

均被广泛用于英语ASR系统的基准测试
音频数据通常被处理为16kHz单声道格式以进行ASR评估，与Open ASR Leaderboard等基准测试保持一致

五、性能

1、Huggingface Open-ASR-Leaderboard 性能表现

自动语音识别(ASR)模型的性能通过词错误率(WER)进行衡量。由于该模型是在跨多个领域的大规模多样化数据集上训练的，因此在各类音频上通常具有更强的鲁棒性和准确性。

2、基础性能表现

下表展示了使用Transducer解码器配合贪心解码策略（未接入外部语言模型）时的词错误率(WER)统计(%)：

模型	平均WER	AMI	Earnings-22	GigaSpeech	LS test-clean	LS test-other	SPGI Speech	TEDLIUM-v3	VoxPopuli
parakeet-tdt-0.6b-v2	6.05	11.16	11.15	9.74	1.69	3.19	2.17	3.38	5.95

3、抗噪性能

使用MUSAN音乐和噪声样本在不同信噪比(SNR)下的性能表现：

信噪比等级	平均词错误率	AMI	Earnings	GigaSpeech	LS test-clean	LS test-other	SPGI	Tedlium	VoxPopuli	相对变化
纯净音频	6.05	11.16	11.15	9.74	1.69	3.19	2.17	3.38	5.95	-
SNR 50	6.04	11.11	11.12	9.74	1.70	3.18	2.18	3.34	5.98	+0.25%
SNR 25	6.50	12.76	11.50	9.98	1.78	3.63	2.54	3.46	6.34	-7.04%
SNR 5	8.39	19.33	13.83	11.28	2.36	5.50	3.91	3.91	6.96	-38.11%