GPU
文章平均质量分 79
bit262426738
这个作者很懒,什么都没留下…
展开
-
clGetDeviceInfo
clGetDeviceInfoGet information about an OpenCL device.cl_int clGetDeviceInfo(cl_device_id device, cl_device_info param_name, size_t param_value_size转载 2014-04-29 15:22:15 · 1502 阅读 · 0 评论 -
nVidia GPGPU vs AMD Radeon HD Graphics执行模式对比
大家做高性能计算的朋友,想必对CPU的执行模式已经非常熟悉了吧。当代高级些的CPU一般采用超标量流水线,使得毗邻几条相互独立的指令能够并行执行——这称为指令集并行(ILP,Instruction-Level Parallelism);而像x86引入的SSE(Streaming SIMD Extension)、AVX(Advanced Vector Extension),以及ARM的NEON技术都属转载 2015-01-19 21:29:25 · 993 阅读 · 0 评论 -
安卓手机GPU OpenCL总结
安卓手机GPU OpenCL总结2014-07-24 07:30:26CSDN-wcj0626-点击数:276 前段时间,把市面上手机GPU OpenCL支持情况做了一个总结。总结如下:目前,手机 GPU 市面有四个公司产品:Qualcomm, Imagination Technologies,ARM, Vivante,分别对应的产品如下:转载 2015-01-15 10:47:54 · 1024 阅读 · 0 评论 -
OPENCL如何获取获取最小线程并行粒度
由于OpenCL是为各类处理器设备而打造的开发标准的计算语言。因此跟CUDA不太一样的是,其对设备特征查询的项更上层,而没有提供一些更为底层的特征查询。比如,你用OpenCL的设备查询API只能获取最大work group size,但无法获取到最小线程并行粒度。但是,由于最小线程并行粒度对于OpenCL应用领域最广的GPU而言确实是一个比较重要的参数。如果你的work group的wor转载 2014-05-13 11:12:15 · 938 阅读 · 0 评论 -
Questions about OPENCL global and local work size
favorite11searching the nvidia forums I found these questions, which are also of interest to me, but nobody had answered them in the last four days or so. Can you help?Original forum p转载 2014-05-15 14:15:26 · 1987 阅读 · 0 评论 -
N卡Fermi架构
Fermi (microarchitecture)From Wikipedia, the free encyclopediaFermi is the codename for a GPU microarchitecture developed by Nvidia as the successor to the Tesla microarchitecture. I转载 2014-04-21 19:45:33 · 1380 阅读 · 0 评论 -
N卡Kepler 架构
Kepler (microarchitecture)From Wikipedia, the free encyclopediaThis article needs more links to other articles to help integrate it into the encyclopedia. Please help imp转载 2014-04-21 20:32:22 · 2759 阅读 · 0 评论 -
CUDA学习笔记之程序优化
CUDA学习笔记之程序优化分类: CUDA2010-01-05 17:18 3833人阅读 评论(3) 收藏 举报cuda优化conflict存储算法数学计算CUDA程序优化CUDA程序优化应该考虑的点:精度:只在关键步骤使用双精度,其他部分仍然使用单精度浮点以获得指令吞吐量和精度的平衡; 延迟:需要首先缓冲一部分数据,缓冲的大小应该可以保证每个转载 2014-04-21 15:02:37 · 701 阅读 · 0 评论 -
矩阵乘优化的思考
所谓矩阵的乘法,就是现有两个矩阵,arr和brr。进行相乘运算,即:arr的第一行乘brr的第一列对应位置之后作和,作为结果的第一行第一列。arr的第一行乘brr的第二列对应位置之后作和,作为结果的第一行第二列。。。。一次类推~没有做任何优化的代码:__kernel void MatrixMul(__global const float *arr, __global const flo转载 2014-04-25 08:08:33 · 782 阅读 · 0 评论 -
CUDA下在Host端分配的几种内存模式
平时我们使用的内存都是Pageable(交换页)的,而另一个模式就是Pinned(Page-locked),实质是强制让系统在物理内存中完成内存申请和释放的工作,不参与页交换,从而提高系统效率,需要使用cudaHostAlloc和cudaFreeHost来分配和释放。 优点 1、带宽更高 2、内核处理和内存拷贝可同时进行 3、可以内存映射(mapped)转载 2014-04-21 15:26:20 · 6183 阅读 · 0 评论 -
cuda学习笔记之异步并行执行
分类: CUDA2010-01-03 21:13 2526人阅读 评论(1) 收藏 举报cuda多线程direct3d集群api编译器异步函数使得主机端与设备端并行执行:控制在设备还没有完成前就被返回给主机线程; 包括: kernel启动; 以Async为后缀的内存拷贝函数; device到device内存拷贝函数;存储器初始化函数,比如cudaMemset转载 2014-04-21 15:27:23 · 1241 阅读 · 0 评论 -
GPGPU-SIM Code Study
原文地址http://people.cs.pitt.edu/~yongli/notes/gpgpu/GPGPUSIMNotes.htmlGPGPU-SIM Code Study (version: 3.1.2)转载 2015-06-12 16:08:20 · 5166 阅读 · 0 评论