使用的CUDA SDK2.0
每个只能开512,貌似3.0后能开到1300还是1500的
具体的CUDA编写是在是傻瓜化,
1. __global__ void 函数要原子化
2. 并行调用直接 <<< grid , bolck >>>
3. 注意 内存 与 显存 之间的复制以及 CPU函数与GPU函数调用内存的位置
简单来说 CUDA已经给封装的很简单了,使用起来也很简单,当然只是指简单的小尝试。
但CUDA更多的应该是 分析 算法的中可以并行的地方然后 原子化 函数 来使用