紧接上一期“语音识别之开发环境搭建(二)”,在接下来的几期,我们先从开源项目ASRT_SpeechRecognition讲解起,包括怎么训练模型、通过工具自制样本集和模型测试等,以此让大家对语音识别有一个基本的认识。之后我们再深入讲解其原理及相关代码,以便为后续针对自己的需求修改代码,设计行业语音样本等做好准备。
一、ASRT_SpeechRecognition简介
1、gitee地址:ASRT_SpeechRecognition: A Deep-Learning-Based Chinese Speech Recognition System 基于深度学习的中文语音识别系统
2、ASRT是一个基于深度学习的中文语音识别系统,采用卷积采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。具体可查阅其博客https://www.ailemon.net/
3、代码结构如下图:
4、使用git clone https://github.com/nl8590687/ASRT_SpeechRecognition.git
命令下载代码,或者可下载后拷贝到虚拟机中。
注:git命令不可用,可通过yum install git进行安装
二、模型训练
1、安装项目依赖
1)通过sudo pip3 install --upgrade pip升级pip
2)为了节省学习成本,这里我们没有使用GPU,所以不使用tensorflow-gpu,而使用tensorflow。打开requirements.txt,删掉tensorflow-gpu==2.5.3。然后使用pip3 install tensorflow独立安装tensorflow
3)使用pip3 install -r requirements.txt安装依赖
2、由于使用CPU来训练模型,所以需按如下修改代码。打开train_speech_model.py将os.environ["CUDA_VISIBLE_DEVICES"]值改为-1
3、准备训练模型所需的数据集
1)使用python3 download_default_datalist.py下载默认数据集的拼音标签文件,并对下载好的拼音标签文件进行修改,留下小部分数据。测试所用的标签文件数据获取方式详见第三大点。
2)由于数据集太大,无法使用虚拟机这种低配的环境无法进行训练,所以我们对数据集进行裁剪,只留一小部分THCHS30数据集,具体数据获取方式详见文末第三大点。如下修改asrt_config.json,只留下THCHS30
3)在根目录下新建data文件夹,并在data文件夹中新建speech_data,然后将语音训练数据集拷到speech_data文件夹下
4、模型训练
1)新建存放生成模型的文件夹save_models
2)python3 train_speech_model.py训练模型
3)查看生成的模型文件
三、测试的样本数据获取地址
https://download.csdn.net/download/cangyudiyi/85775166
以上就是本期的全部内容啦,下期我们将结合本期训练生成的模型来进行测试,并将介绍ASRT_SpeechRecognition的语音识别的客户端程序和后端服务。See you next time! Enjoy!
各位乡亲父老,扫码关注一下公众号,再走呗。