bit262426738-CSDN博客

转载各家处理器资源网站

1、Intel官方文档：http://www.intel.com/content/www/us/en/processors/architectures-software-developer-manuals.html2、AMD官方文档：http://developer.amd.com/resources/documentation-articles/developer-guides-

2015-06-15 22:13:10 816

转载 Integrated gem5 + GPGPU-Sim Simulator

原文地址：http://cpu-gpu-sim.ece.wisc.edu/Integrated gem5 + GPGPU-Sim SimulatorLast modified on: 04/16/2015 02:52:36 CSTOverviewSimulation FlowPackage Layout

2015-06-12 16:15:51 1888

转载 GPGPU-SIM Code Study

原文地址http://people.cs.pitt.edu/~yongli/notes/gpgpu/GPGPUSIMNotes.htmlGPGPU-SIM Code Study (version: 3.1.2)

2015-06-12 16:08:20 6036

转载 nVidia GPGPU vs AMD Radeon HD Graphics执行模式对比

大家做高性能计算的朋友，想必对CPU的执行模式已经非常熟悉了吧。当代高级些的CPU一般采用超标量流水线，使得毗邻几条相互独立的指令能够并行执行——这称为指令集并行（ILP，Instruction-Level Parallelism）；而像x86引入的SSE（Streaming SIMD Extension）、AVX（Advanced Vector Extension），以及ARM的NEON技术都属

2015-01-19 21:29:25 1219

转载安卓手机GPU OpenCL总结

安卓手机GPU OpenCL总结2014-07-24 07:30:26CSDN-wcj0626-点击数:276 前段时间，把市面上手机GPU OpenCL支持情况做了一个总结。总结如下：目前,手机 GPU 市面有四个公司产品:Qualcomm, Imagination Technologies,ARM, Vivante,分别对应的产品如下:

2015-01-15 10:47:54 1277

转载 linux下vim命令详解

linux下vim命令详解高级一些的编辑器，都会包含宏功能，vim当然不能缺少了，在vim中使用宏是非常方便的：:qx 开始记录宏，并将结果存入寄存器xq 退出记录模式@x 播放记录在x寄存器中的宏命令稍微解释一下，当在normal模式下输入:qx后，你对文本的所有编辑动作将会被记录下来，再次输入q即退出了记录模式，然后输入@x对

2014-07-03 21:16:44 615

转载 Questions about OPENCL global and local work size

favorite11searching the nvidia forums I found these questions, which are also of interest to me, but nobody had answered them in the last four days or so. Can you help?Original forum p

2014-05-15 14:15:26 2154

转载 OPENCL如何获取获取最小线程并行粒度

由于OpenCL是为各类处理器设备而打造的开发标准的计算语言。因此跟CUDA不太一样的是，其对设备特征查询的项更上层，而没有提供一些更为底层的特征查询。比如，你用OpenCL的设备查询API只能获取最大work group size，但无法获取到最小线程并行粒度。但是，由于最小线程并行粒度对于OpenCL应用领域最广的GPU而言确实是一个比较重要的参数。如果你的work group的wor

2014-05-13 11:12:15 1041

转载 clGetDeviceInfo

clGetDeviceInfoGet information about an OpenCL device.cl_int clGetDeviceInfo(cl_device_id device, cl_device_info param_name, size_t param_value_size

2014-04-29 15:22:15 1666

转载矩阵乘优化的思考

所谓矩阵的乘法，就是现有两个矩阵，arr和brr。进行相乘运算，即：arr的第一行乘brr的第一列对应位置之后作和，作为结果的第一行第一列。arr的第一行乘brr的第二列对应位置之后作和，作为结果的第一行第二列。。。。一次类推~没有做任何优化的代码：__kernel void MatrixMul(__global const float *arr, __global const flo

2014-04-25 08:08:33 899

转载内存的物理结构和工作原理

内存的物理结构和工作原理作者：xiaofeng　来源：PConline　发布时间：2012-11-01　点击数：1163　　内存也叫主存，是PC系统存放数据与指令的半导体存储器单元，也叫主存储器（Main Memory），通常分为只读存储器（ROM-Read Only Memory）、随机存储器（RAM-Red Access Memory）和高速缓存存储器（Cache）。我们平

2014-04-22 17:06:42 8813

转载 N卡Kepler 架构

Kepler (microarchitecture)From Wikipedia, the free encyclopediaThis article needs more links to other articles to help integrate it into the encyclopedia. Please help imp

2014-04-21 20:32:22 3096

转载 N卡Fermi架构

Fermi (microarchitecture)From Wikipedia, the free encyclopediaFermi is the codename for a GPU microarchitecture developed by Nvidia as the successor to the Tesla microarchitecture. I

2014-04-21 19:45:33 1629

转载 cuda学习笔记之异步并行执行

分类： CUDA2010-01-03 21:13 2526人阅读评论(1) 收藏举报cuda多线程direct3d集群api编译器异步函数使得主机端与设备端并行执行：控制在设备还没有完成前就被返回给主机线程；包括： kernel启动；以Async为后缀的内存拷贝函数； device到device内存拷贝函数；存储器初始化函数，比如cudaMemset

2014-04-21 15:27:23 1395

转载 CUDA下在Host端分配的几种内存模式

平时我们使用的内存都是Pageable(交换页)的，而另一个模式就是Pinned(Page-locked)，实质是强制让系统在物理内存中完成内存申请和释放的工作，不参与页交换，从而提高系统效率，需要使用cudaHostAlloc和cudaFreeHost来分配和释放。　　优点　　1、带宽更高　　2、内核处理和内存拷贝可同时进行　　3、可以内存映射(mapped)

2014-04-21 15:26:20 6337

转载 CUDA学习笔记之Tesla图形与计算架构和通用计算模型

Tesla图形与计算架构：流处理器阵列（scalable streaming processor array，SPA）+存储器系统，由片上互联网络连接；存储器系统：存储器控制器（MMC）、固定功能的光栅操作单元（raster operation processors，ROP），二级纹理缓存； MMC：负责控制片外的DRAM显存，每个存储器可以提供64bit位宽；

2014-04-21 15:24:30 1144

转载 CUDA学习笔记之程序优化

CUDA学习笔记之程序优化分类： CUDA2010-01-05 17:18 3833人阅读评论(3) 收藏举报cuda优化conflict存储算法数学计算CUDA程序优化CUDA程序优化应该考虑的点：精度：只在关键步骤使用双精度，其他部分仍然使用单精度浮点以获得指令吞吐量和精度的平衡；延迟：需要首先缓冲一部分数据，缓冲的大小应该可以保证每个

2014-04-21 15:02:37 801

bit262426738的专栏