win10+vs2019+cuda10.2+pycuda开发环境搭建

win10+vs2019+cuda10.2+pycuda开发环境的搭建和测试

为了学习CUDA+python ,在自己笔记本呢搭建pycuda环境,没想到踩了如此多的坑,所以,记录一下。

一、安装步骤

1.Anaconda-python

anaconda会提供一些常用的工具包,在它下面运行python会比较方便(LCX语)。从官网下载安装包默认安装即可,建议在安装时将它添加到环境变量中方便使用。

下载官网 https://www.anaconda.com/distribution/#download-section,版本根据需要选择,这里我选择的是Python3.7版本,具体的安装步骤这里不做赘述。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9H1dxDzI-1586685180264)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412155927851.png)]

2.Visual Studio 2019

因为后续的安装需要VC++的支持,看网上的版本大多数使用的2017,甚至是2015版本,头铁的我这里使用的最新的2019版本,VS2019下载地址](https://visualstudio.microsoft.com/zh-hans/vs/whatsnew/?rr=https%3A%2F%2Fblog.csdn.net%2Fqq_43018280%2Farticle%2Fdetails%2F86500740)。

因为我已经安装2019,这里的图片是参考的是安装2017专业版的,大同小异,值得注意的是需要勾选红色框中的VC++ 2015这个运行库在这里插入图片描述

3.CUDA &CUDNN

3.1cudnn 和 cuda Toolkit 下载安装

深度神经网络库CUDNN https://developer.nvidia.com/cudnn下载好,后续需要。

cuda下载地址

下载版本如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3cIYgmPO-1586685180266)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412163526600.png)]

CUDA会自动配置一些环境变量,还有一些需要手动配置。
环境变量中添加:

环境变量自动添加如下

CUDA_PATH = C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2
CUDA_PATH_V10_2 = C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2

环境变量中需要自己添加如下:

CUDA_LIB_PATH = %CUDA_PATH%\lib\x64 
CUDA_BIN_PATH = %CUDA_PATH%\bin 
CUDA_SDK_PATH = C:\ProgramData\NVIDIA Corporation\CUDA Samples\v10.2
CUDA_SDK_BIN_PATH = %CUDA_SDK_PATH%\bin\win64 
CUDA_SDK_LIB_PATH = %CUDA_SDK_PATH%\common\lib\x64 

Path中添加:

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\lib\x64
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\include
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\extras\CUPTI\lib64
C:\ProgramData\NVIDIA Corporation\CUDA Samples\v10.2\bin\win64
C:\ProgramData\NVIDIA Corporation\CUDA Samples\v10.2\common\lib\x64

将CUDNN下的bin include lib三个文件夹添加到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2下面的bin include lib中,实际上只是将CUDNN的三个文件添加到目录下。

3.2验证CUDA安装
nvcc -V验证

打开命令窗口cmd,输入验证命令 nvcc -V

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QAOdS3qa-1586685180267)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412165252148.png)]

bandwidthTest.exe和deviceQuery.exe验证

进入命令提示符窗口,然后进入C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\extras\demo_suite路径下,运行bandwidthTest.exe命令,结果如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TWskIxhC-1586685180267)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412170304437.png)]

同上运行deviceQuery.exe结果如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XAn7G7vJ-1586685180268)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412170607066.png)]

此时确认都出现了Result = PASS,即CUDA 安装成功了。

4.pycuda

可以通过 conda install pycuda 和pip install pycuda进行安装,此处前者报错,后者可以。具体可能是Aconda对pycuda的支持不够。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3inloT7y-1586685180269)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412171305706.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MO9gXxLK-1586685180269)(C:\Users\yc\AppData\Roaming\Typora\typora-user-images\image-20200412171401129.png)]

这里,我已经安装过了。

**注意:**在安装pycuda之前,需要确认前面的步骤安装正确,因为pycuda 依赖于前者,不然会安装报错。

二、测试pycuda

此处利用

在Jupyter notebook 上进行演示:

在你使用PyCuda之前,要先用import命令初始化。

import pycuda.autoinit
import pycuda.driver as drv
import numpy

from pycuda.compiler import SourceModule

调用pycuda.compiler.SourceModule:

mod = SourceModule("""
__global__ void multiply_them(float *dest, float *a, float *b)
{
  const int i = threadIdx.x;
  dest[i] = a[i] * b[i];
}
""")

这里的threadIDx是CUDA C语言的内置变量,这里借此确定了a,b数组所在的位置,然后通过指针对数组a,b中每一个元素进行了乘积的得到新的数组dest

我运行这个遇到了如下报错:

nvcc fatal   : Cannot find compiler 'cl.exe' in PATH

参考

添加了path 变量

INCLUDE = C:\Program Files (x86)\Windows Kits\10\Include\10.0.10240.0\ucrt
LIB = C:\Program Files (x86)\Windows Kits\10\Lib\10.0.10240.0\um\x64
      C:\Program Files (x86)\Windows Kits\10\Lib\10.0.10240.0\ucrt\x64

解决了问题。

**注意:**将cl.exe的路径添加到环境变量的path中然后重启计算机(重启才会生效)

multiply_them = mod.get_function("multiply_them")

multiply_them(
        drv.Out(dest), drv.In(a), drv.In(b),
        block=(400,1,1), grid=(1,1))

这一步如果没有出错,就说明这段代码已经编译成功,并且加载到显卡中了。然后咱们可以使用一个到咱们这个pycuda.driver.Function的引用,然后调用此引用,把显存中的数组a_gpu作为参数传过去,同时设定线程块(block)大小为400x1,,网格(grid)为1:

a = numpy.random.randn(400).astype(numpy.float32)
b = numpy.random.randn(400).astype(numpy.float32)

dest = numpy.zeros_like(a)
print dest-a*b

生成随机数组带入计算后,得到结果如下:

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]

至此,验证pycuda 可以正常使用,可以开始学习了。

tory01418367500203572310
2: https://blog.csdn.net/bingo_liu/article/details/103224730
3: https://zhuanlan.zhihu.com/p/32062796
4: https://blog.csdn.net/weixin_42074867/article/details/88550817

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
### 回答1: OpenCV是一个开源的计算机视觉和机器学习库,可以方便地处理图像和视频。而CUDA(Compute Unified Device Architecture)是由NVIDIA开发的一种并行计算架构,可以加速图形处理器(GPU)上的计算任务。 OpenCV 4.5.1是OpenCV的一个版本,它提供了丰富的功能和算法,用于图像和视频处理、特征提取、目标检测等任务。这个版本可以在Windows 10操作系统上使用,并且可以与Visual Studio 2017集成,提供开发环境和调试工具。 CUDA 10.0是NVIDIA的一个版本,它支持NVIDIA GPU上的并行计算任务。它允许开发人员使用C语言、C++或CUDA自己的扩展语言编写并行计算代码,以加速计算密集型任务。例如,在图像处理中,可以使用CUDA加速OpenCV算法,从而提高计算性能。 而cuDNN(CUDA Deep Neural Network library)是NVIDIA专门为深度学习任务开发的一个库。它提供了一组高性能的深度神经网络的基本操作和优化算法,可以与CUDA和OpenCV结合使用。 综上所述,OpenCV 4.5.1可以与CUDA 10.0和cuDNN 7.6.0集成使用。开发者可以在Visual Studio 2017中使用这些工具和库进行图像处理和机器学习任务的开发和优化。通过使用CUDA加速,可以提高计算性能,而cuDNN可以提供深度学习任务所需的算法和操作。 ### 回答2: OpenCV 4.5.1是一个计算机视觉库,用于在计算机视觉和机器学习项目中进行图像和视频处理。VS2017是一个集成开发环境(IDE),用于Windows操作系统上的软件开发CUDA(Compute Unified Device Architecture)是一个用于GPU计算的并行计算平台和API模型。CUDNN是NVIDIA深度神经网络库,用于在GPU上加速深度学习任务。 在Windows 10上使用VS2017来编译OpenCV 4.5.1,并在CUDA 10.0和CUDNN 7.6.0的支持下进行构建可以提供更好的计算性能和加速。CUDA 10.0提供了与CUDA架构和驱动程序的兼容性,并支持许多NVIDIA GPU。CUDNN 7.6.0是基于CUDA的深度神经网络库,可以加速深度学习任务的训练和推理。 使用VS2017编译OpenCV可以让开发者方便地在Windows平台上进行开发和调试。VS2017提供了强大的集成开发环境,它可以帮助开发者编写、调试和测试程序。通过配置CUDA 10.0和CUDNN 7.6.0来支持OpenCV的GPU加速,可以进一步提高图像和视频处理的速度和效率。 总结来说,使用OpenCV 4.5.1、VS2017、Windows 10、CUDA 10.0和CUDNN 7.6.0可以实现在Windows平台上的高效计算机视觉和机器学习开发。这种配置可以提供更好的性能和加速,特别是在需要处理大量图像和视频、进行深度学习任务的情况下。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值