gpu
文章平均质量分 85
seeCrazy
这个作者很懒,什么都没留下…
展开
-
gpu实例分析之求和操作
Gpu编程就是要利用gpu强大的运算能力去处理简单的大量的运算。Cpu的芯片中包含大量的逻辑控制单元,这就决定了cpu适用于处理复杂的逻辑控制的任务。而在gpu的芯片中则只有很少的控制单元,但却集成了大量的运算单元,如果只用于进行图像处理的运算,那么对运算资源的浪费就太大了。 下面通过一个程序实例来说明我对gpu编程的理解 该程序引用自高性能编程之cuda>>19页,分析内容为自己根据所学知识原创 2014-12-01 10:25:32 · 2184 阅读 · 0 评论 -
GPU矩阵点积代码实现及分析
实验内容 设计实现矩阵乘法A*B=C的CUDA代码,并分析使用不同算法所产生的不同效率的原因。 不使用共享内存的实现方式。 使用共享内存的实现方式,分块实现块大小为16*16 使用共享内存的实现方式,分块实现块大小为8*8 注:因共享内存有限,故对矩阵的乘法采用分块实现。 实验分析 任务a:每一个线程负责产生结果矩阵C中的一个元素,C中每一个元素的原创 2014-12-03 10:32:59 · 1891 阅读 · 0 评论 -
GPU库伦求和实现
实验内容 给定一个三维网格空间,空间中网格的坐标为[x,y,z],该空间中有K个原子,分布于网格空间中的任意网格坐标上。设计实现一个并行算法,求出该网格空间中每一个网格点受到的网格空间中的所有原子的库仑力之和。 图1 图1显示了一个三维网格空间的切片,在该空间中有三个原子(用红色的叉标注),这三个原子对网格空间中的所有网格点都有库仑力的作用,该二维空间原创 2014-12-03 10:58:23 · 1475 阅读 · 0 评论 -
GPU希尔排序的CUDA实现
实验内容与说明 希尔排序作为插入排序的一种,是对简单插入排序的改进,根据其实现特点,又被称作缩小增量排序。为什么会产生希尔排序这种算法呢?因为我们都知道简单插入排序在待排序数组基本有序的情况下,其排序效率最高;希尔排序的思想就是在进行最终的简单插入排序之前,先对待排序数组进行一系列简单的预处理,使得待排序数组变成基本有序的状态,然后再进行最终的简单插入排序,这样就可以获得较高的效率。假设我们原创 2014-12-03 11:24:02 · 1221 阅读 · 0 评论