CTC模型、安装及其pytorch绑定安装

CTC模型是语音识别模型中常见的模块之一,现有主流的语音识别系统经常采用该模型来实现端到端的语音识别。而CTC出现之前,语音识别模型的端到端识别效果还是相对较弱的,也就是说CTC解决了这一问题。

1、CTC的相关原理

深度学习的序列到序列模型可以解决许多现实任务,如:

由于seq2seq模型往往需要输入序列和输出标注之间具备一一对应关系,然而语音识别是该模型中比较特殊的一块,由于在语音识别中,一个声音信号被转换成words或者是sub-word单元,在利用seq2seq模型时,它要求预先分割(pre-segmented)的训练数据,通过后处理将模型输出转换为label序列,然而由于识别出的字符序列或者音素序列长度远小于输入的特征帧序列,无法达到一一对应关系,因此它的应用受到较大的限制。

因此在语音识别模型中,引入了CTC模型(Connectionist temporal classification),它往往接在RNN网络的最后一层用于序列学习所用;对于一段输入序列长度为T的序列来说,每个样本点 t 在RNN网络的最后一层都会输出一个softmax向量,表示预测概率,接上CTC模型之后,就可以正确预测出序列的标签;

其示意图如下所示:

2、CTC的安装

(1)进行创建和make

git clone https://github.com/SeanNaren/warp-ctc.git
cd warp-ctc
mkdir build; cd build
cmake ..
make

从而可见该安装成功。

(2)进行pytorch绑定CTC的安装

export CUDA_HOME="/usr/local/cuda"
cd ../pytorch_binding
python setup.py install

注:在这过程中需要先安装cffi.

pip install cffi

 

(3)安装成功的具体界面如下:

 

(4)在python中的调用结果如下,可见其已经安装成功。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值