Parakeet TDT 0.6B V2 - 高精度英语语音识别模型

一、关于 Parakeet TDT 0.6B V2

基础信息


模型简介

parakeet-tdt-0.6b-v2 是一个拥有6亿参数的自动语音识别(ASR)模型,专为高质量的英语转录而设计,支持标点符号、大小写以及精确的时间戳预测。点击此处体验演示:https://huggingface.co/spaces/nvidia/parakeet-tdt-0.6b-v2

该模型是FastConformer架构[1]的XL变体,集成了TDT[2]解码器,并通过全注意力机制训练,能够高效地单次转录长达24分钟的音频片段。在HF-Open-ASR排行榜上,该模型以128的批次大小实现了3380的RTFx性能。注意:RTFx性能可能因数据集音频时长和批次大小而异。


核心特性

  • 精确的词级时间戳预测
  • 自动标点符号和大小写处理
  • 对口语数字和歌词转录具有鲁棒性

更多信息请参阅模型架构章节及NeMo文档

本模型已开放商业/非商业用途。


二、技术说明

模型架构

架构类型

FastConformer-TDT

网络架构


输入

  • 输入类型: 16kHz 音频
  • 输入格式: .wav.flac 音频格式
  • 输入参数: 一维(音频信号)
  • 其他输入相关属性: 单声道音频

输出

  • 输出类型: 文本
  • 输出格式: 字符串
  • 输出参数: 一维(文本)
  • 与输出相关的其他属性: 包含标点符号和大写规则

我们的AI模型专为NVIDIA GPU加速系统设计和/或优化。通过利用NVIDIA的硬件(如GPU核心)和软件框架(如CUDA库),该模型相比纯CPU解决方案能实现更快的训练和推理速度。


三、快速使用

如需训练、微调或测试该模型,您需要安装 NVIDIA NeMo。建议在安装最新版 PyTorch 后再进行安装。

pip install -U nemo_toolkit['asr']

该模型可在NeMo工具包[3]中使用,可作为预训练检查点用于推理或在其他数据集上进行微调。


1、自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")


2、使用 Python 进行转录

首先,让我们获取一个样本

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav 

然后只需执行:

output = asr_model.transcribe(['2086-149220-0033.wav'])
print(output[0].text)

3、带时间戳的转录

要进行带时间戳的转录:

output = asr_model.transcribe(['2086-149220-0033.wav'], timestamps=True)
# by default, timestamps are enabled for char, word and segment level
word_timestamps = output[0].timestamp['word'] # word level timestamps for first sample
segment_timestamps = output[0].timestamp['segment'] # segment level timestamps
char_timestamps = output[0].timestamp['char'] # char level timestamps

for stamp in segment_timestamps:
    print(f"{stamp['start']}s - {stamp['end']}s : {stamp['segment']}")


四、训练与评估数据集


1、训练

该模型使用 NeMo 工具包 [3] 进行训练,具体采用以下策略:

  • 基于 LibriLight 数据集 [7] 预训练的 wav2vec SSL 检查点进行初始化
  • 在 128 块 A100 GPU 上训练了 150,000 步
  • 使用温度采样值 0.5 对数据集语料进行平衡处理
  • 第二阶段微调在 4 块 A100 GPU 上进行,使用约 500 小时高质量的 NeMo ASR Set 3.0 人工转录数据,共训练 2,500 步

训练过程采用以下 示例脚本TDT 配置文件 完成。

分词器通过此 脚本 基于训练集文本构建。


2、训练数据集

该模型基于Granary数据集进行训练,该数据集包含约12万小时的英语语音数据:

  • 1万小时来自人工转录的NeMo ASR Set 3.0,包括:
    • LibriSpeech(960小时)
    • Fisher语料库
    • 国家语音语料库第一部分
    • VCTK
    • VoxPopuli(英语)
    • Europarl-ASR(英语)
    • 多语言LibriSpeech(MLS英语)- 2000小时子集
    • Mozilla Common Voice(v7.0)
    • AMI
  • 11万小时来自伪标注数据:
    • YTC(YouTube-Commons)数据集[4]
    • YODAS数据集[5]
    • Librilight[7]

所有转录文本均保留标点符号和大小写规范。Granary数据集将在2025年Interspeech会议展示后公开提供。


各数据集采集方式

  • 混合模式:自动采集、人工采集

各数据集标注方式

  • 混合模式:合成标注、人工标注

数据集特性:

  • 包含来自多源噪声环境的鲁棒性数据
  • 单声道,16kHz采样率数据

3、评估数据集

本模型使用Huggingface开放ASR排行榜数据集进行性能评估。

各数据集的数据收集方法

  • 人工采集

各数据集的标注方法

  • 人工标注

数据集特性:

  • 均被广泛用于英语ASR系统的基准测试
  • 音频数据通常被处理为16kHz单声道格式以进行ASR评估,与Open ASR Leaderboard等基准测试保持一致

五、性能


1、Huggingface Open-ASR-Leaderboard 性能表现

自动语音识别(ASR)模型的性能通过词错误率(WER)进行衡量。由于该模型是在跨多个领域的大规模多样化数据集上训练的,因此在各类音频上通常具有更强的鲁棒性和准确性。


2、基础性能表现

下表展示了使用Transducer解码器配合贪心解码策略(未接入外部语言模型)时的词错误率(WER)统计(%):

模型平均WERAMIEarnings-22GigaSpeechLS test-cleanLS test-otherSPGI SpeechTEDLIUM-v3VoxPopuli
parakeet-tdt-0.6b-v26.0511.1611.159.741.693.192.173.385.95

3、抗噪性能

使用MUSAN音乐和噪声样本在不同信噪比(SNR)下的性能表现:

信噪比等级平均词错误率AMIEarningsGigaSpeechLS test-cleanLS test-otherSPGITedliumVoxPopuli相对变化
纯净音频6.0511.1611.159.741.693.192.173.385.95-
SNR 506.0411.1111.129.741.703.182.183.345.98+0.25%
SNR 256.5012.7611.509.981.783.632.543.466.34-7.04%
SNR 58.3919.3313.8311.282.365.503.913.916.96-38.11%

4、电话音频性能对比

标准16kHz音频与电话风格音频(采用μ-law编码,经过16kHz→8kHz→16kHz转换)的性能比较:

音频格式平均WERAMIEarningsGigaSpeechLS test-cleanLS test-otherSPGITedliumVoxPopuli相对变化
标准16kHz6.0511.1611.159.741.693.192.173.385.95-
μ-law 8kHz6.3211.9811.1610.021.783.522.203.386.52-4.10%

这些WER分数是通过贪心解码(未使用外部语言模型)获得的。更多评估细节可参考Hugging Face ASR排行榜。[6]


伊织 xAI 2025-05-06(周二)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

编程乐园

请我喝杯伯爵奶茶~!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值