一、关于 Parakeet TDT 0.6B V2
基础信息
- Hugging Face:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2
- Demo体验:在线演示空间
- 开发团队:NVIDIA
- 模型类型:专业型语音识别模型
- License: CC-BY-4.0
- 发布日期:2025-05-01
模型简介
parakeet-tdt-0.6b-v2
是一个拥有6亿参数的自动语音识别(ASR)模型,专为高质量的英语转录而设计,支持标点符号、大小写以及精确的时间戳预测。点击此处体验演示:https://huggingface.co/spaces/nvidia/parakeet-tdt-0.6b-v2
该模型是FastConformer架构[1]的XL变体,集成了TDT[2]解码器,并通过全注意力机制训练,能够高效地单次转录长达24分钟的音频片段。在HF-Open-ASR排行榜上,该模型以128的批次大小实现了3380的RTFx性能。注意:RTFx性能可能因数据集音频时长和批次大小而异。
核心特性
- 精确的词级时间戳预测
- 自动标点符号和大小写处理
- 对口语数字和歌词转录具有鲁棒性
本模型已开放商业/非商业用途。
二、技术说明
模型架构
架构类型:
FastConformer-TDT
网络架构:
- 该模型基于FastConformer编码器架构[1]和TDT解码器[2]开发
- 该模型包含6亿个模型参数
输入
- 输入类型: 16kHz 音频
- 输入格式:
.wav
和.flac
音频格式 - 输入参数: 一维(音频信号)
- 其他输入相关属性: 单声道音频
输出
- 输出类型: 文本
- 输出格式: 字符串
- 输出参数: 一维(文本)
- 与输出相关的其他属性: 包含标点符号和大写规则
我们的AI模型专为NVIDIA GPU加速系统设计和/或优化。通过利用NVIDIA的硬件(如GPU核心)和软件框架(如CUDA库),该模型相比纯CPU解决方案能实现更快的训练和推理速度。
三、快速使用
如需训练、微调或测试该模型,您需要安装 NVIDIA NeMo。建议在安装最新版 PyTorch 后再进行安装。
pip install -U nemo_toolkit['asr']
该模型可在NeMo工具包[3]中使用,可作为预训练检查点用于推理或在其他数据集上进行微调。
1、自动实例化模型
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")
2、使用 Python 进行转录
首先,让我们获取一个样本
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
然后只需执行:
output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)
3、带时间戳的转录
要进行带时间戳的转录:
output = asr_model.transcribe(['2086-149220-0033.wav'], timestamps=True)
# by default, timestamps are enabled for char, word and segment level
word_timestamps = output[0].timestamp['word'] # word level timestamps for first sample
segment_timestamps = output[0].timestamp['segment'] # segment level timestamps
char_timestamps = output[0].timestamp['char'] # char level timestamps
for stamp in segment_timestamps:
print(f"{stamp['start']}s - {stamp['end']}s : {stamp['segment']}")
四、训练与评估数据集
1、训练
该模型使用 NeMo 工具包 [3] 进行训练,具体采用以下策略:
- 基于 LibriLight 数据集 [7] 预训练的 wav2vec SSL 检查点进行初始化
- 在 128 块 A100 GPU 上训练了 150,000 步
- 使用温度采样值 0.5 对数据集语料进行平衡处理
- 第二阶段微调在 4 块 A100 GPU 上进行,使用约 500 小时高质量的 NeMo ASR Set 3.0 人工转录数据,共训练 2,500 步
分词器通过此 脚本 基于训练集文本构建。
2、训练数据集
该模型基于Granary数据集进行训练,该数据集包含约12万小时的英语语音数据:
- 1万小时来自人工转录的NeMo ASR Set 3.0,包括:
- LibriSpeech(960小时)
- Fisher语料库
- 国家语音语料库第一部分
- VCTK
- VoxPopuli(英语)
- Europarl-ASR(英语)
- 多语言LibriSpeech(MLS英语)- 2000小时子集
- Mozilla Common Voice(v7.0)
- AMI
- 11万小时来自伪标注数据:
- YTC(YouTube-Commons)数据集[4]
- YODAS数据集[5]
- Librilight[7]
所有转录文本均保留标点符号和大小写规范。Granary数据集将在2025年Interspeech会议展示后公开提供。
各数据集采集方式
- 混合模式:自动采集、人工采集
各数据集标注方式
- 混合模式:合成标注、人工标注
数据集特性:
- 包含来自多源噪声环境的鲁棒性数据
- 单声道,16kHz采样率数据
3、评估数据集
本模型使用Huggingface开放ASR排行榜数据集进行性能评估。
各数据集的数据收集方法
- 人工采集
各数据集的标注方法
- 人工标注
数据集特性:
- 均被广泛用于英语ASR系统的基准测试
- 音频数据通常被处理为16kHz单声道格式以进行ASR评估,与Open ASR Leaderboard等基准测试保持一致
五、性能
1、Huggingface Open-ASR-Leaderboard 性能表现
自动语音识别(ASR)模型的性能通过词错误率(WER)进行衡量。由于该模型是在跨多个领域的大规模多样化数据集上训练的,因此在各类音频上通常具有更强的鲁棒性和准确性。
2、基础性能表现
下表展示了使用Transducer解码器配合贪心解码策略(未接入外部语言模型)时的词错误率(WER)统计(%):
模型 | 平均WER | AMI | Earnings-22 | GigaSpeech | LS test-clean | LS test-other | SPGI Speech | TEDLIUM-v3 | VoxPopuli |
---|---|---|---|---|---|---|---|---|---|
parakeet-tdt-0.6b-v2 | 6.05 | 11.16 | 11.15 | 9.74 | 1.69 | 3.19 | 2.17 | 3.38 | 5.95 |
3、抗噪性能
使用MUSAN音乐和噪声样本在不同信噪比(SNR)下的性能表现:
信噪比等级 | 平均词错误率 | AMI | Earnings | GigaSpeech | LS test-clean | LS test-other | SPGI | Tedlium | VoxPopuli | 相对变化 |
---|---|---|---|---|---|---|---|---|---|---|
纯净音频 | 6.05 | 11.16 | 11.15 | 9.74 | 1.69 | 3.19 | 2.17 | 3.38 | 5.95 | - |
SNR 50 | 6.04 | 11.11 | 11.12 | 9.74 | 1.70 | 3.18 | 2.18 | 3.34 | 5.98 | +0.25% |
SNR 25 | 6.50 | 12.76 | 11.50 | 9.98 | 1.78 | 3.63 | 2.54 | 3.46 | 6.34 | -7.04% |
SNR 5 | 8.39 | 19.33 | 13.83 | 11.28 | 2.36 | 5.50 | 3.91 | 3.91 | 6.96 | -38.11% |
4、电话音频性能对比
标准16kHz音频与电话风格音频(采用μ-law编码,经过16kHz→8kHz→16kHz转换)的性能比较:
音频格式 | 平均WER | AMI | Earnings | GigaSpeech | LS test-clean | LS test-other | SPGI | Tedlium | VoxPopuli | 相对变化 |
---|---|---|---|---|---|---|---|---|---|---|
标准16kHz | 6.05 | 11.16 | 11.15 | 9.74 | 1.69 | 3.19 | 2.17 | 3.38 | 5.95 | - |
μ-law 8kHz | 6.32 | 11.98 | 11.16 | 10.02 | 1.78 | 3.52 | 2.20 | 3.38 | 6.52 | -4.10% |
这些WER分数是通过贪心解码(未使用外部语言模型)获得的。更多评估细节可参考Hugging Face ASR排行榜。[6]
伊织 xAI 2025-05-06(周二)