python cuda_Numba python CUDA与cuBLAS在简单操作上的速度差...

最新推荐文章于 2024-04-20 14:18:29 发布

鲁严波

最新推荐文章于 2024-04-20 14:18:29 发布

阅读量301

点赞数

文章标签： python cuda

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42202724/article/details/111889177

版权

我正在分析一些代码,无法找出性能差异.我正在尝试在两个数组(就地)之间做一个简单的元素方式加法.这是使用numba的CUDA内核：

from numba import cuda

@cuda.jit('void(float32[:], float32[:])')

def cuda_add(x, y):

ix = cuda.threadIdx.x + cuda.blockIdx.x * cuda.blockDim.x

stepSize = cuda.gridDim.x * cuda.blockDim.x

while ix < v0.shape[0]:

y[ix] += x[ix]

ix += stepSize

我以为性能不错,但随后将其与cuBLAS方法进行了比较：

from accelerate.cuda.blas import Blas

blas = Blas()

blas.axpy(1.0, X, Y)

对于大型阵列(20M元素),BLAS方法的性能大约快25％.这是在通过预先调用cuda.jit内核“预热”了它之后,因此已经缓存了已编译的PTX代码(不确定是否很重要,但只是为了确保不是问题).

我可以理解3级矩阵矩阵操作的性能差异,但这是一个简单的加法.我有什么办法可以从cuda.jit代码中榨取更多性能？我问是因为我要优化的真实代码是2d数组,无法传递给blas.axpy.

编辑执行代码和其他所需的软件包：

import numpy as np

def main():

n = 20 * 128 * 128 * 64

x = np.random.rand(n).astype(np.float32)

y = np.random.rand(n).astype(np.float32)

## Create necessary GPU arrays

d_x = cuda.to_device(x)

d_y = cuda.to_device(y)

## My function

cuda_add[1024, 64](d_x , d_y)

## cuBLAS function

blas = Blas()

blas.axpy(1.0, d_x , d_y)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python cuda_Numba python CUDA与cuBLAS在简单操作上的速度差...

我正在分析一些代码,无法找出性能差异.我正在尝试在两个数组(就地)之间做一个简单的元素方式加法.这是使用numba的CUDA内核：from numba import cuda@cuda.jit('void(float32[:], float32[:])')def cuda_add(x, y):ix = cuda.threadIdx.x + cuda.blockIdx.x * cuda.blockD...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。