本教程展示了如何使用来自 wav2vec 2.0 [论文] 的预训练模型进行语音识别。
1. 概述
语音识别的过程如下所示:
- 从音频波形中提取声学特征
- 逐帧估计声学特征的类别
- 根据类别概率序列生成假设
Torchaudio 提供了便捷的访问预训练权重及相关信息的方式,例如预期的采样率和类别标签。这些信息被打包在一起,并可通过 torchaudio.pipelines
模块获取。
2. 准备工作
import torch
import torchaudio
print(torch.__version__)
print(torchaudio.__ve