近来采用cuda加速,对时间做了下测试,发现cuda版本和c版本的code运行时间基本上没什么大的改善。非常惊讶!因为之前对gpu抱了很大的希望。为什么会事与愿违呢?
仔细研究code,发现,时间的损耗很大一部分都花在数据copy和读取上。于是又开始翻看资料……发现将操作数一次拷贝到shared memory是个不错的idea。
近来采用cuda加速,对时间做了下测试,发现cuda版本和c版本的code运行时间基本上没什么大的改善。非常惊讶!因为之前对gpu抱了很大的希望。为什么会事与愿违呢?
仔细研究code,发现,时间的损耗很大一部分都花在数据copy和读取上。于是又开始翻看资料……发现将操作数一次拷贝到shared memory是个不错的idea。