c++输入一个矩阵_卷积网络的c版本加速以及在语音上的实时性应用

最新推荐文章于 2022-12-22 12:24:22 发布

Kay Lam

最新推荐文章于 2022-12-22 12:24:22 发布

阅读量142

点赞数

文章标签： c++输入一个矩阵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36369848/article/details/112122024

版权

目前在做的工作，是关于把卷积神经网络用于语音的处理上，可以用于声音场景的分析，提取声音的鲁棒性特征。

神经网络模型是pytorch训练的resnet-34模型，pytorch提供了c++接口libtorch，但是并没有提供c实现，目前实现了卷积网络的c实现并做了加速。在i7 x64测试环境下单层cnn的rtf为2ms，依赖于open blas.

计算模式参考于kaldi nnet1的cnn实现，并做了计算的优化与内存管理，将多次矩阵相乘操作优化为一次。

cnn的卷积核大小为输入通道*输出通道*卷积核宽*卷积核长，输入图像大小为输入通道*图像宽*图像长，卷积核需要在图像中滑动，与输入图像做矩阵乘法计算，计算输出图像的值。因此，滑动多少次，就需要做多少次矩阵相乘，会导致多次循环，减慢速度。

目前做的工作是把矩阵运算简化为一次，将输入图像按index取出构造vec_feature，与整个卷积核执行一次矩阵相乘，即可得到输出图像。矩阵的index组织如下图所示。

示例图为单通道，5*5的图片输入，卷积核通道数为3，正常的卷积计算需要在输入图像中取3*3的输入窗口，与每个通道的卷积核矩阵相乘并求和，每一次计算输出1*3的输出向量，输出图像维度多大，就要做多少次类似的运算。下图中将所取的输入窗口铺平为9*1的向量，卷积核也执行展平操作，变为一个9*3的二维矩阵。如此，只要一次矩阵运算，便可完成3个通道上的卷积运算。上述是一次卷积，随着卷积核滑动，每次取9个元素，最终形成一个9*n的矩阵，n是输出的图像大小，将该矩阵与9*3的卷积核执行openblas中的矩阵相乘，一次运算即可得到最终卷积输出，图像大小为n,通道数为3的三维tensor。

后续讨论cnn在语音上的流式处理。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
c++输入一个矩阵_卷积网络的c版本加速以及在语音上的实时性应用

目前在做的工作，是关于把卷积神经网络用于语音的处理上，可以用于声音场景的分析，提取声音的鲁棒性特征。神经网络模型是pytorch训练的resnet-34模型，pytorch提供了c++接口libtorch，但是并没有提供c实现，目前实现了卷积网络的c实现并做了加速。在i7 x64测试环境下单层cnn的rtf为2ms，依赖于open blas.计算模式参考于kaldi nnet1的cnn实现，并做了...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。