WIN10+cuda10+pytorch+py3.68环境下，warpctc 编译不成功的解决办法

最新推荐文章于 2022-09-25 16:15:05 发布

qq_41895190

最新推荐文章于 2022-09-25 16:15:05 发布

阅读量2.7k

点赞数 1

分类专栏： Python学习 pytorch win10 文章标签： WIN10 cuda10 pytorch warpctc

本文链接：https://blog.csdn.net/qq_41895190/article/details/90199952

版权

WIN10+cuda10+pytorch+py3.68环境下，warpctc_pytorch 编译不成功的解决办法

warp-ctc

Warp-CTC是一个可以应用在CPU和GPU上高效并行的CTC代码库（library）介绍 CTCConnectionist Temporal Classification作为一个损失函数，用于在序列数据上进行监督式学习，不需要对齐输入数据及标签。比如，CTC可以被用来训练端对端的语音识别系统，这正是我们在百度硅谷试验室所使用的方法。端到端系统语音识别

上图展示了CTC计算输出序列（“THE CAT”）概率的过程，是对可能映射成“THE CAT”的所有可能输入序列对齐的和。这一过程考虑了标签会被复制的可能性，因为标签有可能在输入数据的几个时间步（time steps)时被拉伸（请见上图底部的声谱图）。由于涉及到了组合学，计算所有可能概率的和的成本会很高，但是CTC运用了动态规划以大幅降低计算的复杂性。作为一个可微函数，CTC可以被用于深度神经网络的标准SGD训练。我们实验室专注于递归神经网络（RNN）的可扩展性（scalibility), 而CTC损失函数是其中很重要的一部分。为了让我们的系统更有效率，我们并行处理了CTC算法，正如这篇文章中所描述的。这个项目包含了我们的高性能CPU以及CUDA版本的CTC损失函数, 以及绑定的Torch. 该代码库提供了简单的C接口，易于与深度学习框架整合。

这种执行方式提高了训练的的可扩展性，超过了并行CTC的实现方式。对于以GPU为核心的训练，我们可用所有的的网络带宽来增加数据的可并行性。性能相起其他的开源工具，Warp-CTC的实现方式相对高效，且代码的数值稳定性也较好。因为CTC本身对数值较为敏感，因此即使使用双精度标准计算，也会出现下溢 (underflow)的情况。具体来说，两个数值趋近于无穷小且相近的数字相除的结果应该大约为1，却因为分母接近为0而变成无穷。然而，如果直接取对数执行运算，CTC会在数值上较为稳定，虽然会在单精度浮点中以高成本运算为代价。我们将Warp-CTC和Eesen (建立在Theano上的CTC)以及仅运行Stanford-CTC的Cython CPU进行了比较。为了进行比较，我们对在32位浮点数上运行的Theano进行了基准测试，并且取对数计算。而Stanford-CTC由于本身不支持对数运算，因此需要被修改。而且它也不支持大于1的迷你批处理（minibatches), 所以需要在真正的训练流水线上布局非常规内存（我们假设成本与迷你批处理的规模是成正线性关系）。我们在Deep Speech 2中分别展示了英文及中文端对端模型的结果, 其中T代表输入CTC的时间步数量，L代表每个例子的标签长度，A代表字母数量。在GPU上，Warp-CTC对64个例子迷你批处理的表现比Eesen快7倍到155倍，比Theano快46倍到68倍

GPU性能

单核NVIDIA Titan X GPU基准测试

T=150, L=40, A=28	warp-ctc	Eesen	Theano

最低0.47元/天解锁文章

qq_41895190

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
6
评论
WIN10+cuda10+pytorch+py3.68环境下，warpctc 编译不成功的解决办法

WIN10+cuda10+pytorch+py3.68环境下，warpctc_pytorch 编译不成功的解决办法warp-ctcWarp-CTC是一个可以应用在CPU和GPU上高效并行的CTC代码库（library）介绍 CTCConnectionist Temporal Classification作为一个损失函数，用于在序列数据上进行监督式学习，不需要对齐输入数据及标签。比...
复制链接

扫一扫