cuda
Yan_Joy
这个作者很懒,什么都没留下…
展开
-
cuda 并行计算 | GPU 编程模型
udacity上的课程,有nvidia的工程师上课,比较基础也比较易懂。CUDA程序的特点相比于CPU的单线程串行计算,CUDA程序的多线程对速度提升有很大的作用。 这就是优化时间与优化吞吐量的区别。程序编译后分别在CPU和GPU上运行;CPU是主机(host),GPU是从机(device);各自有各自的存储位置,不能相互访问。GPU不能发起运算,只能相应运算CUDA程序的执行步骤CP原创 2017-03-30 13:13:45 · 3518 阅读 · 0 评论 -
cuda 学习 | GPU硬件与并行通信模式
通信方式通信方式主要以课程截图为主……Map 这是一种一一对应的方式。Gather 多对一的方式。Scatter 一对多的方式。Stencil 模板,多对多的方式。 图中左中为输入,左下为输出,不同颜色为不同线程的读取、输出位置。Transpose 转置操作,改变形状、顺序等。 进行合理的顺序改变在数据读取速度上会提升速度。GPU结构从大到小来说,结构为: Kernel -》 B原创 2017-03-31 16:32:44 · 4350 阅读 · 2 评论 -
cuda 学习 | GPU的归约、扫描、直方图算法
两种复杂度Step complexity 即步骤复杂度,完成一个工作需要多少步。Work complexity 即工作复杂度,完成工作一共需要的工作量。对于并行计算,由于可以采取多线程的运算,可以对每一步的运算时间进行很大的缩减。但对于整个程序,有时需要分很多步骤,后续步骤需要等待前面的步骤处理完得到结果才能继续执行。因此有时步骤的复杂度反而决定了整个程序运行的时间。Reduce 归约归约原创 2017-04-05 11:20:12 · 3535 阅读 · 1 评论 -
Tensorflow 解决 No module named '_pywrap_tensorflow_internal'
这个问题是我在windows上尝试安装GPU版本时出现的,系统 win10,CUDA 8.0,VS2015 com,cudnn-8.0-windows10-x64-v6.0。 官网上安装指南中Common installation problems也有提到,给出的是STACK OVERFLOW 的解答:On Windows, running “import tensorflow” generate原创 2017-07-25 18:55:48 · 27434 阅读 · 0 评论 -
Jetson AGX Xavier JetPack 4.2环境配置
Jetson AGX Xavier 去年,NVIDIA在苏州举办了GTC China大会上发布的AI计算平台,主要用于移动端的计算。想法美好,不过配起来环境还是遇到了很多问题,一些是软件,另一些甚至还有硬件。设备需求Jetson AGX Xavier(当然)显示器(两台,一个给host主机,一个给Xavier平台,配套的hdmi线)网线(也要备两根)键鼠(一套就行,主要工作在host上...原创 2019-04-03 22:11:52 · 7676 阅读 · 19 评论