CUDA编程实践-3
矩阵转置求解实现了两个版本的转置。一种是没有进行内存优化,直接上gpu的版本。 一种是考虑访存优化,利用share-memory进行优化。先把host端的代码粘出来: host端代码: #include<stdio.h> #include <stdlib.h> #include <cuda_runtime.h> #include <helper_cuda.h> #def
linux相关
c语言
数学
openMP、MPI学习
算法相关
随笔
工具
LeetCode刷题
Scan的相关知识(包括并行优化及用到的资料)
CUDA编程
caffe
HPC论文阅读 
