2015年03月_wcj0626

07月 06月 04月 03月 02月 01月

原创巧用CUDA中的pinned memory

这几天看别人的论文，发现一个比较有意思的实现方式。巧用pinned memory，在GPU中实现类似pipeline的功能。在论文中pipeline中，有四个操作：地址生成，数据组装，数据拷贝和计算。对于地址生成和计算是在GPU中操作的。详细的请看一个例子： 1、我们假设有两个thread block，对于第一个block计算地址空间(在例子中省略了），在第一个bloc

2015-03-25 00:53:44 1961 1

HLSL Development Cookbook

专注于讲解 HLSL 的书籍，重点在 HLSL 以及源码，关于 DirectX 的篇幅很少

2019-01-24

OpenACC2.0中文版

这是2013年7~8月份自己翻译的OpenACC2.0的标准。

2015-07-13

SVM粗/细粒度粒子

AMD平台下，OpenCL SVM 粗/细粒度缓冲SVM粒子。VS工程。

2015-06-04

安卓平台下Mali-OpenCL例子

该例子是安卓平台下Mali运行 OpenCL代码，对1080P的彩色图灰度转换。例子说明请看我博客文章。

2015-04-09

fftw安卓平台

fftw源码编译安卓平台可使用的fftw，对应版本为fftw3.3.4

2014-06-27

cuda fortran cufft

这是自己在VS2012下，使用PVF弄的一个fortran调用CUFFT的例子。

2013-08-20

基于Open CL的MD5破解算法

基于OpenCL的MD5破解算法，利用OpenCL破解MD5

2012-06-13

基于CUDA架构的MD5破解方法研究

基于CUDA架构的MD5破解方法研究，利用CUDA破解MD5

2012-06-13

GPU高性能计算系列丛书的第一本《GPU高性能计算之CUDA》已经出版，由张舒，褚艳利，赵开勇，张钰勃所编写。本书除了详细介绍了CUDA的软硬件架构以及C for CUDA程序开发和优化的策略外，还包含有大量的实例供读者学习参考用。下表是各个实例的介绍列表。文件夹对应书中章节备注 ACsearch_DPPcompact_with_driver 5.2.2 AC多模式匹配算法 asyncAPI 2.5 异步API调用示例 bandwidthTest 2.3.6 带宽测试 Bitonic 5.1.1 双调排序网络 conjugateGradient 5.2.1 共轭梯度算法，CUBLAS实现 cudaMPI 2.7.3 CUDA+MPI管理GPU集群 cudaOpenMP 2.7.2 CUDA+OpenMP管理多GPU deviceQuery 2.1.4 设备查询 histKernel 2.4.3 亮度直方图统计 matrixAssign 2.1.4 矩阵赋值 matrixMul 4.7.1 矩阵乘法，利用shared memory matrixMul_Berkeley 4.7.1 矩阵乘法，利用register reduction 4.7.2 并行归约（缩减）程序 scan 5.1.2 Scan算法，例如计算前缀和 scanLargeArray 5.1.2 Scan算法，可以处理大数组 simpleCUBLAS 5.1.3 CUBLAS库的简单应用 simpleCUFFT 5.1.4 CUFFT库的简单应用 simpleD3D9 2.6.2 CUDA与Direct3D 9互操作 simpleD3D10 2.6.2 CUDA与Direct3D10互操作 simpleGL 2.6.1 CUDA与OpenGL互操作 simpleMultiGPU 2.7.1 多设备控制 simpleStreams 2.5.2 流的使用演示 simpleTexture 2.3.8 简单的纹理使用 simpleTextureDrv 2.3.8 简单的纹理使用，驱动API 实现 sortingNetworks 5.1.1 双调排序网络，处理大数组 threadMigration 2.7.1 通过上下文管理和设备管理功能实现多设备并行计算 timing 4.2.1 设备端测时 transpose 4.7.3 矩阵转置 transposeDiagonal 4.7.3 矩阵转置，考虑partition conflict VectorAdd 2.2.3/2.3.4 矢量加 VectorAddDrv 2.2.3/2.3.4 矢量加，驱动API实现【备注】以上工程，均在Windows XP 64-bit + Tesla C1060 + CUDA 2.3 + VS2005环境下测试通过。

2011-11-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

wcj0626的专栏

原创巧用CUDA中的pinned memory

HLSL Development Cookbook

OpenACC2.0中文版

SVM粗/细粒度粒子

安卓平台下Mali-OpenCL例子

Qt图片导出到Excel中

fftw安卓平台

cuda fortran cufft

差分遗传算法

基于Open CL的MD5破解算法

基于CUDA架构的MD5破解方法研究

CUDA范例精解通用GPU编程

消息传递并行编程环境MPI

GPU高性能计算之CUDA实例

MPI参考手册

Linux设备驱动开发详解

嵌入式Linux应用程序开发标准教程

qq聊天程序--C#版

ASP.NET站点高级编程示范----BookShop目录

ASP.NET站点高级编程示---bbs

开发人员的NET设计规范

空空如也

原创 巧用CUDA中的pinned memory

HLSL Development Cookbook

OpenACC2.0中文版

SVM粗/细粒度粒子

安卓平台下Mali-OpenCL例子

Qt图片导出到Excel中

fftw安卓平台

cuda fortran cufft

差分遗传算法

基于Open CL的MD5破解算法

基于CUDA架构的MD5破解方法研究

CUDA范例精解通用GPU编程

消息传递并行编程环境MPI

GPU高性能计算之CUDA实例

MPI参考手册

Linux设备驱动开发详解

嵌入式Linux应用程序开发标准教程

qq聊天程序--C#版

ASP.NET站点高级编程示范----BookShop目录

ASP.NET站点高级编程示---bbs

开发人员的NET设计规范

空空如也

原创巧用CUDA中的pinned memory