自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

转载 clGetDeviceInfo

clGetDeviceInfoGet information about an OpenCL device.cl_int clGetDeviceInfo(cl_device_id device, cl_device_info param_name, size_t param_value_size

2014-04-29 15:22:15 1464

转载 矩阵乘优化的思考

所谓矩阵的乘法,就是现有两个矩阵,arr和brr。进行相乘运算,即:arr的第一行乘brr的第一列对应位置之后作和,作为结果的第一行第一列。arr的第一行乘brr的第二列对应位置之后作和,作为结果的第一行第二列。。。。一次类推~没有做任何优化的代码:__kernel void MatrixMul(__global const float *arr, __global const flo

2014-04-25 08:08:33 762

转载 内存的物理结构和工作原理

内存的物理结构和工作原理作者:xiaofeng 来源:PConline 发布时间:2012-11-01 点击数:1163  内存也叫主存,是PC系统存放数据与指令的半导体存储器单元,也叫主存储器(Main Memory),通常分为只读存储器(ROM-Read Only Memory)、随机存储器(RAM-Red Access Memory)和高速缓存存储器(Cache)。我们平

2014-04-22 17:06:42 7899 1

转载 N卡Kepler 架构

Kepler (microarchitecture)From Wikipedia, the free encyclopediaThis article needs more links to other articles to help integrate it into the encyclopedia. Please help imp

2014-04-21 20:32:22 2718

转载 N卡Fermi架构

Fermi (microarchitecture)From Wikipedia, the free encyclopediaFermi is the codename for a GPU microarchitecture developed by Nvidia as the successor to the Tesla microarchitecture. I

2014-04-21 19:45:33 1350

转载 cuda学习笔记之异步并行执行

分类: CUDA2010-01-03 21:13 2526人阅读 评论(1) 收藏 举报cuda多线程direct3d集群api编译器异步函数使得主机端与设备端并行执行:控制在设备还没有完成前就被返回给主机线程;    包括:      kernel启动; 以Async为后缀的内存拷贝函数; device到device内存拷贝函数;存储器初始化函数,比如cudaMemset

2014-04-21 15:27:23 1216

转载 CUDA下在Host端分配的几种内存模式

平时我们使用的内存都是Pageable(交换页)的,而另一个模式就是Pinned(Page-locked),实质是强制让系统在物理内存中完成内存申请和释放的工作,不参与页交换,从而提高系统效率,需要使用cudaHostAlloc和cudaFreeHost来分配和释放。  优点  1、带宽更高  2、内核处理和内存拷贝可同时进行  3、可以内存映射(mapped)

2014-04-21 15:26:20 6141

转载 CUDA学习笔记之Tesla图形与计算架构和通用计算模型

Tesla图形与计算架构:流处理器阵列(scalable streaming processor array,SPA)+存储器系统,由片上互联网络连接;存储器系统:存储器控制器(MMC)、固定功能的光栅操作单元(raster operation processors,ROP),二级纹理缓存;            MMC:负责控制片外的DRAM显存,每个存储器可以提供64bit位宽; 

2014-04-21 15:24:30 954

转载 CUDA学习笔记之程序优化

CUDA学习笔记之程序优化分类: CUDA2010-01-05 17:18 3833人阅读 评论(3) 收藏 举报cuda优化conflict存储算法数学计算CUDA程序优化CUDA程序优化应该考虑的点:精度:只在关键步骤使用双精度,其他部分仍然使用单精度浮点以获得指令吞吐量和精度的平衡;           延迟:需要首先缓冲一部分数据,缓冲的大小应该可以保证每个

2014-04-21 15:02:37 687

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除