CTC+pytorch编译配置warp-CTC

CTC


CTC可以生成一个损失函数,用于在序列数据上进行监督式学习,不需要对齐输入数据及标签,经常连接在一个RNN网络的末端,训练端到端的语音和文本识别系统。CTC论文地址: http://www.cs.toronto.edu/%7Egraves/icml_2006.pdf


CTC网络的输入


CTC网络的输入是一个样本(图像)经过网络(一般是CNN+RNN)计算后生成的特征向量(特征序列)。

特征序列里各个向量是按序排布的,是从图像样本上从左到右的一个个小的区间映射过来的,可以设置区间的大小(宽度),宽度越小,获得的特征序列里的特征向量个数越多,极端情况下,可以设置区间宽度为1,这样就会生成width(图像宽度)个特征向量。


CTC网络的计算过程


CTC网络的计算是为了得到特征序列最可能对应的标签对象,对语音识别是一段话,对文本识别是一段文字。

1. 计算特征序列里N个特征向量分别对应的n个可能结果的概率。如果当前的特征向量的预测结果不在样本标签列表里,就置预测结果为blank空格或下划线。计算结果从一个N维的特征序列,得到一个N×n的预测序列。

2.  计算N×n的预测序列对应的所有可能的结果的概率,中间涉及到去除重复字母和blank的操作。
N×n个特征向量对应的所有可能结果有n的N次方个,涉及到组合学,计算所有可能概率的成本会很高,但是CTC运用了动态规划以大幅降低计算的复杂性。


CTC网络的输出


对识别过程,取出最大概率对应的结果作为识别结果输出;
对训练过程,取最大概率对应的结果跟真实标签之间的差异(计算编辑距离等方法),作为训练Loss,反向传输给前端网络。

CTC计算过程示意图:




pytorch安装


GPU版本的:

conda install pytorch=0.3.0 cuda80 -c soumith

CPU版本的:

conda install pytorch=0.3.0 -c soumith

参考官网: https://pytorch.org/#pip-install-pytorch



warp-CTC安装


warp-CTC是百度开源的一个可以应用在CPU和GPU上高效并行的CTC代码库,对CTC算法进行了并行处理。

warp-CTC安装:

git clone https://github.com/SeanNaren/warp-ctc.git
cd warp-ctc
mkdir build; cd build
cmake ..
make
cd ../pytorch_binding
python setup.py install

添加环境变量:

gedit ./.bashrc
export WARP_CTC_PATH=/home/xxx/warp-ctc/build


验证pytorch中warp-CTC是否可用GPU例子:

cd /home/xxx/warp-ctc/pytorch_binding/tests
python test_gpu.py

OK输出:


或:

import torch
from torch.autograd import Variable
from warpctc_pytorch import CTCLoss
ctc_loss = CTCLoss()
# expected shape of seqLength x batchSize x alphabet_size
probs = torch.FloatTensor([[[0.1, 0.6, 0.1, 0.1, 0.1], [0.1, 0.1, 0.6, 0.1, 0.1]]]).transpose(0, 1).contiguous()
labels = Variable(torch.IntTensor([1, 2]))
label_sizes = Variable(torch.IntTensor([2]))
probs_sizes = Variable(torch.IntTensor([2]))
probs = Variable(probs, requires_grad=True) # tells autograd to compute gradients for probs
cost = ctc_loss(probs, labels, probs_sizes, label_sizes)
cost.backward()
print('PyTorch bindings for Warp-ctc')

PyTorch bindings for Warp-ctc参考: https://github.com/SeanNaren/warp-ctc
  • 8
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
CTC (Connectionist Temporal Classification) 是一种用于无需对齐标签序列的序列学习方法,常被用于语音识别、光学字符识别等任务中。 PyTorch 是一个流行的深度学习框架,提供了丰富的工具和接口来实现各种深度学习任务,包括使用 CTC 的序列学习。 要在 PyTorch 中使用 CTC,可以使用 `torch.nn.CTCLoss` 模块计算 CTC 损失,该模块需要输入预测序列、标签序列和预测序列长度等参数。可以使用 `torch.nn.utils.rnn.pack_padded_sequence` 和 `torch.nn.utils.rnn.pad_packed_sequence` 模块来处理变长序列输入。 以下是一个使用 PyTorchCTC 实现的简单语音识别示例: ``` import torch import torch.nn as nn # 定义模型 class SpeechRecognitionModel(nn.Module): def __init__(self, input_size, hidden_size, num_layers, num_classes): super(SpeechRecognitionModel, self).__init__() self.rnn = nn.LSTM(input_size, hidden_size, num_layers, bidirectional=True) self.fc = nn.Linear(hidden_size * 2, num_classes) def forward(self, x): x, lengths = nn.utils.rnn.pad_packed_sequence(x, batch_first=True) x = nn.utils.rnn.pack_padded_sequence(x, lengths, batch_first=True) x, _ = self.rnn(x) x, _ = nn.utils.rnn.pad_packed_sequence(x, batch_first=True) x = self.fc(x) return x # 计算 CTC 损失 loss_fn = nn.CTCLoss() # 定义数据和标签 data = torch.randn(10,20, 40) # (batch_size, seq_len, input_size) label = [torch.randint(1, 30, (5,), dtype=torch.long) for i in range(10)] # 变长标签序列 # 计算预测序列长度 input_lengths = torch.full((10,), 20, dtype=torch.long) # 计算标签序列长度 label_lengths = torch.tensor([len(l) for l in label], dtype=torch.long) # 初始化模型和优化器 model = SpeechRecognitionModel(40, 256, 3, 30) optimizer = torch.optim.Adam(model.parameters()) # 训练模型 for i in range(100): optimizer.zero_grad() output = model(data) output_lengths = torch.full((10,), output.shape[1], dtype=torch.long) loss = loss_fn(output, label, output_lengths, label_lengths) loss.backward() optimizer.step() print("Iteration {}: Loss = {}".format(i+1, loss.item())) ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值