各家处理器资源网站

1、Intel官方文档: http://www.intel.com/content/www/us/en/processors/architectures-software-developer-manuals.html 2、AMD官方文档: http://developer.amd.com...

2015-06-15 22:13:10

阅读数 350

评论数 0

Integrated gem5 + GPGPU-Sim Simulator

原文地址:http://cpu-gpu-sim.ece.wisc.edu/ Integrated gem5 + GPGPU-Sim Simulator Last modified on: 04/16/2015 02:52:36 CST ...

2015-06-12 16:15:51

阅读数 855

评论数 0

GPGPU-SIM Code Study

原文地址http://people.cs.pitt.edu/~yongli/notes/gpgpu/GPGPUSIMNotes.html GPGPU-SIM Code Study (version: 3.1.2)                                     ...

2015-06-12 16:08:20

阅读数 1877

评论数 0

nVidia GPGPU vs AMD Radeon HD Graphics执行模式对比

大家做高性能计算的朋友,想必对CPU的执行模式已经非常熟悉了吧。当代高级些的CPU一般采用超标量流水线,使得毗邻几条相互独立的指令能够并行执行——这称为指令集并行(ILP,Instruction-Level Parallelism);而像x86引入的SSE(Streaming SIMD Exten...

2015-01-19 21:29:25

阅读数 552

评论数 0

安卓手机GPU OpenCL总结

安卓手机GPU OpenCL总结 2014-07-24 07:30:26CSDN-wcj0626-点击数:276  前段时间,把市面上手机GPU OpenCL支持情况做了一个总结。总结如下:目前,手机 GPU 市面有四个公司产品:Qualcomm...

2015-01-15 10:47:54

阅读数 690

评论数 0

linux下vim命令详解

linux下vim命令详解 高级一些的编辑器,都会包含宏功能,vim当然不能缺少了,在vim中使用宏是非常方便的: :qx     开始记录宏,并将结果存入寄存器x q     退出记录模式 @x     播放记录在x寄存器中的宏命令 稍微解释一下,当在normal模...

2014-07-03 21:16:44

阅读数 431

评论数 0

Questions about OPENCL global and local work size

favorite 11 searching the nvidia forums I found these questions, which are also of interest to me, but nobody had answered them in the la...

2014-05-15 14:15:26

阅读数 1426

评论数 0

OPENCL如何获取获取最小线程并行粒度

由于OpenCL是为各类处理器设备而打造的开发标准的计算语言。因此跟CUDA不太一样的是,其对设备特征查询的项更上层,而没有提供一些更为底层的特征查询。比如,你用OpenCL的设备查询API只能获取最大work group size,但无法获取到最小线程并行粒度。 但是,由于最小线程并行粒度...

2014-05-13 11:12:15

阅读数 783

评论数 0

clGetDeviceInfo

clGetDeviceInfo Get information about an OpenCL device. cl_int clGetDeviceInfo( cl_device_id device,   cl_device_i...

2014-04-29 15:22:15

阅读数 887

评论数 0

矩阵乘优化的思考

所谓矩阵的乘法,就是现有两个矩阵,arr和brr。进行相乘运算,即:arr的第一行乘brr的第一列对应位置之后作和,作为结果的第一行第一列。arr的第一行乘brr的第二列对应位置之后作和,作为结果的第一行第二列。。。。一次类推~ 没有做任何优化的代码: __kernel void Matr...

2014-04-25 08:08:33

阅读数 622

评论数 0

内存的物理结构和工作原理

内存的物理结构和工作原理 作者:xiaofeng 来源:PConline 发布时间:2012-11-01 点击数:1163   内存也叫主存,是PC系统存放数据与指令的半导体存储器单元,也叫主存储器(Main Memory),通常分为只读存储器(ROM-Read Only Memo...

2014-04-22 17:06:42

阅读数 2971

评论数 1

N卡Kepler 架构

Kepler (microarchitecture) From Wikipedia, the free encyclopedia This article needs more links to other articles to help in...

2014-04-21 20:32:22

阅读数 1601

评论数 0

N卡Fermi架构

Fermi (microarchitecture) From Wikipedia, the free encyclopedia Fermi is the codename for a GPU microarchitecture developed by Nvidia a...

2014-04-21 19:45:33

阅读数 937

评论数 0

cuda学习笔记之异步并行执行

分类: CUDA2010-01-03 21:13 2526人阅读 评论(1) 收藏 举报 cuda多线程direct3d集群api编译器 异步函数使得主机端与设备端并行执行:控制在设备还没有完成前就被返回给主机线程;     包括:       kernel启动; 以Async为后...

2014-04-21 15:27:23

阅读数 696

评论数 0

CUDA下在Host端分配的几种内存模式

平时我们使用的内存都是Pageable(交换页)的,而另一个模式就是Pinned(Page-locked),实质是强制让系统在物理内存中完成内存申请和释放的工作,不参与页交换,从而提高系统效率,需要使用cudaHostAlloc和cudaFreeHost来分配和释放。   优点   1...

2014-04-21 15:26:20

阅读数 3319

评论数 0

CUDA学习笔记之Tesla图形与计算架构和通用计算模型

Tesla图形与计算架构:流处理器阵列(scalable streaming processor array,SPA)+存储器系统,由片上互联网络连接; 存储器系统:存储器控制器(MMC)、固定功能的光栅操作单元(raster operation processors,ROP),二级纹理缓存; ...

2014-04-21 15:24:30

阅读数 772

评论数 0

CUDA学习笔记之程序优化

CUDA学习笔记之程序优化 分类: CUDA2010-01-05 17:18 3833人阅读 评论(3) 收藏 举报 cuda优化conflict存储算法数学计算 CUDA程序优化 CUDA程序优化应该考虑的点: 精度:只在关键步骤使用双精度,其他部分仍然使用单精度浮点以获得指令...

2014-04-21 15:02:37

阅读数 580

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭