最近在看 http://www.youku.com/playlist_show/id_2911049.html 这个CUDA视频讲座,其中第三讲最后那个矩阵乘法的例子刚看完不是很理解,于是去网上搜了一下,类似的讲解有以下两个PPT:
http://wenku.baidu.com/view/fcc717eef8c75fbfc77db2d9.html
http://wenku.baidu.com/view/bc3af96aa45177232f60a210.html
kernel源代码在这里:
http://www.cnblogs.com/Romi/archive/2012/05/17/2506826.html
下面这个虽然与上面的例子不是完全一致,但是代码比较全,主机代码也有,可以参考:
http://www.cppblog.com/bennycen/archive/2011/07/26/151879.aspx