大稀疏矩阵的存储,文档及源码
大稀疏矩阵的存储,包括:DIA(diagonal non-zeros)、ELLPACK、COO、CSR、HYB(ELLPACK+COO)、DOK(MAP-based)、LIL(List-based)等多种存储格式,内含文档与源码。没有哪种格式占绝对优势,视情况选用。当然还有四元树等其它方法,有兴趣的朋友请留言~
扩展的高斯卷积算法 X-convolutionSeparable
用高斯核做高斯模糊,先做行再做列。由于SDK里的该例程对图片宽高要求严格,而且边界处理地不甚妥当,于是我进行了适当的扩展,使得其可以处理任意宽*任意高大小的图片,而且经过对边界的clamp处理,使得图片边界不再白白。
频繁项集挖掘算法的CUDA实现
若干频繁项集挖掘算法的描述及实现思路(CPU、CPU+GPU),主要是Apriori算法(两种CUDA实现,借助bitmap/trie),另外还有对FP-growth算法实现的探讨和K-means聚类算法的简介。Apriori的加速效果最明显(100倍),FP-growth因其树型存储和索引方式不太适合GPU实现。
CUDA实现稀疏大矩阵乘法
稀疏矩阵的DIA/ELLPACK/COO/CSR/HYB表示形式,以及各表示形式下的稀疏矩阵乘法(稀疏大矩阵*矢量)的CUDA实现。对于矩阵中每一行稀疏元素个数较统一的情况,ELLPACK表示最佳,其次是HYB(ELL+COO)。关于稀疏矩阵的研究很多,这里列出的仅是凤毛麟角,有兴趣的朋友我们一起探讨。
Compiler Optimization on VLIW Instruction Scheduling for Low Power笔记
"Compiler Optimization on VLIW Instruction Scheduling for Low Power"一文的读书笔记,图文。
OpenCL开发流程,platform/devices/context概念澄清
图解。关于OpenCL开发流程及platform/devices/context等概念澄清的图示。
八数码的IDA*算法实现
(内附源码、详细代码注释、测试数据)
源码1:普通IDA*算法实现八数码
源码2:变相IDA*算法实现八数码,ACRush楼天成大牛的2005百度之星巨作,佩服佩服,CPU上平均跑0.0022S
BFS_CUDA 广搜的CUDA实现
BFS_CUDA源码,图用邻接链表表示,一层结点并行起来,一结点一线程,复杂度是O(diameter)。具体原理请参见blog.csdn.net/iJuliet