语音识别系列1--语音识别CTC之数据准备

语音识别CTC之数据准备

一、简介

CTC是一种端到端的神经网络训练方法,在语音识别领域应用非常广泛,和传统的语音识别HMM相比,CTC省略了数据对齐,特征选取的过程。传统的HMM在训练神经网络之前需要选择特定的语音特征,比如FBANK、MFCC。而CTC则直接将语音转到频域即可使用,传统的HMM在训练之前需要对数据进行帧对齐,对齐的过程首先要进行HMM-GMM的聚类,并且较小的建模粒度需要做状态的绑定,因为较大的建模粒度效果往往不好。最后使用GMM或者DNN对齐的标签也不是很准确。而端到端的CTC技术正好解决了这个问题,建模粒度更大,HMM-DNN模型用一个DNN模型替代,不需要对齐标签,仅需要整句话的标签即可,语料充足的情况下效果比传统的HMM方法要好。

tensorflow原生支持CTC目标函数,网络结构搭建简单,是一个不错的深度学习工具,我们通过tensorflow训练CTC模型,在3000小时语音数据的基础上,效果达到了字准95%,句准91%的效果,下面我们首先介绍训练过程的数据准备阶段。

 

二、数据格式

输入为kaldi提取的ark文件对应的scp文件,标签文件,输出为准备好的tfrecord文件。

 

scp文件格式如下:

0000000000000000000001 3000h.a

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值