GPU
文章平均质量分 54
lalalala256
这个作者很懒,什么都没留下…
展开
-
NVIDIA profiler性能分析工具使用
在程序工程名上点右键->profile as->Remote C/C++ Application(我用的远程调试CUDA程序)启用性能分析profiler性能分析总览:下图最下部分需要详细分析:它是针对每个程序的分析结果报告。各种处理过程快速浏览:点击每行都会有不同的提示,有每个函数的使用情况,和平台的性能情况Overlap:在cudaMemcpy的同时,计算的时间占总的cudaM原创 2017-03-24 18:21:15 · 8879 阅读 · 0 评论 -
nvidia_uvm: Unknown symbol task_stack_page (err 0)
When I run ./deviceQuery I get this result (the output without sudo is the same):$ sudo optirun ./deviceQuery./deviceQuery Starting...CUDA Device Query (Runtime API) version (CUDART static linki...原创 2018-11-19 14:45:19 · 729 阅读 · 0 评论 -
CUDA使用FP16进行半精度运算
cudaSamples里面0_Simple里面有个关于fp16的例子,做fp16矢量的点积的。自己简单实现一个,做个对自己的测试。1、关于fp16定义CUDA 7.5 新特性介绍 -- FP16(即fp16是cuda7.5引入的,需要计算能力达到5.3或以上)16-bit Floating Point (半精度浮点)从 Tegra X1 开始,NVIDIA 的 GPU 将支持原生的 FP16 计算...原创 2018-01-13 21:10:52 · 27835 阅读 · 3 评论 -
小知识
以前一直以为Pascal架构单个SM只有64个CUDA核心,查到的资料大多也比较混淆。很多拿GP100架构过来说Pascal架构是64核心/SM,其实GP100架构确实是64核心/SM,但后来的Pascal架构并不是。用官方自带samples的deviceQuery查了下我的GTX1050是128核心/SM的,查了下源码。原来每种架构下,每个SM对应的核心数都是有表格 的。在helper_cuda...原创 2018-01-18 15:20:42 · 237 阅读 · 0 评论 -
关于CUDA零拷贝内存的实验
零拷贝介绍和主要函数通常来说,之不能直接访问设备变量,同时设备也不能直接访问主机变量。但是有一个例外:另拷贝内存。主机和设备都可以访问零拷贝内存。GPU线程可以直接访问零拷贝内存。在CUDA核函数中使用另拷贝内存有以下优势:当设备内存不够时可利用主机内存避免主机和设备间的显示数据传输提高PCIe传输率当使用零拷贝内存来共享主机和设备间的数据时,必须同原创 2017-11-14 16:16:50 · 2961 阅读 · 2 评论 -
循环展开导致代码无法启动。。。cuda优化-展开循环的知识
前两天手动将循环展开,在windows下出现了错误,不知道为什么,在linux下成功启动,也可以设置register使用,但不知道原因。今天看到这个,才明白,记录下。原来展开后的代码的中间计算过程也是需要寄存器来存储临时变量的。转载:http://blog.csdn.net/redline2005/article/details/23161525最近看到了一些循环展转载 2017-12-20 17:59:27 · 410 阅读 · 0 评论 -
流和并发
流和并发一、流和事件概述CUDA流是一系列异步的CUDA操作,这些操作按照主机代码确定的顺序在设备上执行。流能够封装这些操作,保持操作的顺序,允许操作在流中排队,并使它们在先前的操作之后执行,并且可以查询排队操作的状态。这些操作包括在主机和设备间进行数据传输,内核启动以及大多数由主机发起但由设备执行的其他命令。流中操作的执行相对于主机总是异步的。CUDA运行时决定何时可以在设备上执行操原创 2017-12-20 17:36:44 · 1049 阅读 · 0 评论 -
caffe使用cuda速度只比cpu快了2倍?
今天终于吧caffe配好了,迫不及待的测试了两个例子:一个是caffe自带的mnist例子。另一个是网上有人改了caffe的例子cpp_classification,功能是识别猫。配的比较困难,因为用到了opencv、boost和cuda的各种库,最终终于配好了。下面是测试数据(图像大小216kb),跑多次程序,提速基本保持在1.5-2倍CPU_ONLY=1-------原创 2017-11-03 15:31:47 · 2682 阅读 · 0 评论 -
CUDA Tegra、GeForce、Quadro、Tesla的区别
部分内容引自:http://blog.csdn.net/ziv555/article/details/51279424Tegra系列产品是转为移动和嵌入式设备而设计的,如平板电脑和手机,典型的如Tegra K1,Tegra X1,TegraX2等(为嵌入式芯片,功耗低,gpu和cpu芯片在同一块硅片上)GeForce面向图像用户,典型的如NVIDIA TITAN Xp、GeForce GT原创 2017-10-30 17:07:33 · 3825 阅读 · 0 评论 -
CUDA计算能力的含义
我们在学习GPU编程时经常看到计算能力(Compute Capability)这个词语,那么什么是计算能力呢?计算能力(Compute Capability)计算能力不是描述GPU设备计算能力强弱的绝对指标,他是相对的。准确的说他是一个架构的版本号。也不是指cuda软件平台的版本号(如cuda7.0,cuda8.0等)如TX1,版本号为5.3,实际上指的是:5、SM原创 2017-10-30 11:48:40 · 17419 阅读 · 0 评论 -
初学cuda程序的一点记录
编cuda程序比较少,尤其是性能分析器也不会看,过段时间还要找工作,把今天看的调的一点点东西记下来,也不一定对,先记录着。程序优化后面再说,就是个naive版代码和分析。kernel函数分成两个,在主机端调用两次结果如下可以看到原创 2017-07-26 11:10:07 · 404 阅读 · 0 评论 -
初学如何选择thread数量
本文以求两个矢量的平方和矢量的程序来简单分析如何选择thread的尺寸,使用的环境为win7+cuda+GTX1050显卡代码如下:总的数据量为#define N 10000#define N 10000#define THREAD_NUM 10当所使用线程数为#define THREAD_NUM 1原创 2017-07-20 22:27:11 · 612 阅读 · 0 评论 -
vs+cuda+opencv配置
cuda配置http://blog.csdn.net/u013422712/article/details/49498055上述3.e中的配置找库目录时最好使用http://blog.csdn.net/qq_25147897/article/details/75042022中的复制文件名的方法上述配置只能一个工程有效,要想所有工程有效,使用下述方法:http://blog.转载 2017-07-13 16:34:50 · 647 阅读 · 0 评论 -
用cublas实现行优先矩阵乘法和列优先矩阵乘法
引用:http://www.cnblogs.com/scut-fm/p/3756242.htmlcublas库是CUDA标准的线代库,但没有专门针对稀疏矩阵的操作。其中cublasSgemm实现C=α*A*B+β*C功能函数原型为/* GEMM */CUBLASAPI cublasStatus_t CUBLASWINAPI cublasSgemm_v2 (cublasHandle原创 2017-04-26 16:03:59 · 2775 阅读 · 0 评论 -
NVIDIA / Intel 核芯显卡显示 + Nvidia 计算
今天折腾了好久intel集成显卡显示。最后好不容易才全部搞定,这里记录一下。 1. 首先在BIOS里是要打开Intel 核芯显卡的。我把它设置成了主显卡,显示器也接到核心显卡的口上。重启后, I卡警告low resolution, 进不去桌面 2. 切换N/I 卡的命令是prime-select (安装包是 nvidia-prime, 不需要装传说中的bumblee什么的)...转载 2018-11-19 16:42:40 · 1184 阅读 · 0 评论