中文语音识别实战(ASR)

写在前面的话

本博客主要介绍了

1. 语音识别基础知识

2. 中文语音识别数据集

3. 语音识别常用模型方法

4. 自己训练一个中文语音识别模型

注意: 代码中所涉及的模型及数据集,均可从huggingface下载得到,代码中的路劲,需要根据自身实际情况稍做调整。

目录

语音识别基础

数据集

模型

wav2vec

whipser

训练代码

工具代码

推理代码

单条推理

参考


语音识别基础

音视频开发基础入门|声音的采集与量化、音频数字信号质量、音频码率_量化后的声音信号-CSDN博客

https://huggingface.co/learn/audio-course/chapter1/audio_data

数据集

common_voice

包含大陆,香港,台湾等地的语音数据。

https://huggingface.co/datasets/fsicoli/common_voice_17_0

其它

webhub123

模型

wav2vec

https://huggingface.co/facebook/wav2vec2-base

whipser

Whisper是一种用于自动语音识别(ASR)和语音翻译的预训练模型。Whisper模型经过680k小时的标记数据训练,显示出强大的能力,可以在不需要微调的情况下推广到许多数据集和领域。

模型架构

模型大小
模型大小

https://huggingface.co/docs/transformers/model_doc/whisper#transformers.WhisperProcessor

  • 18
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值