语音识别之ASRT开源项目(一)

     紧接上一期“语音识别之开发环境搭建(二)”,在接下来的几期,我们先从开源项目ASRT_SpeechRecognition讲解起,包括怎么训练模型、通过工具自制样本集和模型测试等,以此让大家对语音识别有一个基本的认识。之后我们再深入讲解其原理及相关代码,以便为后续针对自己的需求修改代码,设计行业语音样本等做好准备。

一、ASRT_SpeechRecognition简介

1、gitee地址:ASRT_SpeechRecognition: A Deep-Learning-Based Chinese Speech Recognition System 基于深度学习的中文语音识别系统

2、ASRT是一个基于深度学习的中文语音识别系统,采用卷积采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。具体可查阅其博客https://www.ailemon.net/

3、代码结构如下图:

4、使用git clone https://github.com/nl8590687/ASRT_SpeechRecognition.git

命令下载代码,或者可下载后拷贝到虚拟机中。

注:git命令不可用,可通过yum install git进行安装

二、模型训练

1、安装项目依赖

1)通过sudo pip3 install --upgrade pip升级pip

2)为了节省学习成本,这里我们没有使用GPU,所以不使用tensorflow-gpu,而使用tensorflow。打开requirements.txt,删掉tensorflow-gpu==2.5.3。然后使用pip3 install tensorflow独立安装tensorflow

3)使用pip3 install -r requirements.txt安装依赖

2、由于使用CPU来训练模型,所以需按如下修改代码。打开train_speech_model.py将os.environ["CUDA_VISIBLE_DEVICES"]值改为-1

3、准备训练模型所需的数据集

1)使用python3 download_default_datalist.py下载默认数据集的拼音标签文件,并对下载好的拼音标签文件进行修改,留下小部分数据。测试所用的标签文件数据获取方式详见第三大点。

2)由于数据集太大,无法使用虚拟机这种低配的环境无法进行训练,所以我们对数据集进行裁剪,只留一小部分THCHS30数据集,具体数据获取方式详见文末第三大点。如下修改asrt_config.json,只留下THCHS30

3)在根目录下新建data文件夹,并在data文件夹中新建speech_data,然后将语音训练数据集拷到speech_data文件夹下

4、模型训练

1)新建存放生成模型的文件夹save_models

2)python3 train_speech_model.py训练模型

3)查看生成的模型文件

三、测试的样本数据获取地址

https://download.csdn.net/download/cangyudiyi/85775166

    以上就是本期的全部内容啦,下期我们将结合本期训练生成的模型来进行测试,并将介绍ASRT_SpeechRecognition的语音识别的客户端程序和后端服务。See you next time! Enjoy!

各位乡亲父老,扫码关注一下公众号,再走呗。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值