在大规模并行处理器编程实战中遇到第四章的课后习题:
如果并不是所有的blocksize值都能使代码正确执行,那么应该如何修改代码,才能使所有 的blocksize值都能执行正确。
没有找到答案,我也不知道说的对不对,个人觉得
1、blocksize 根据SM可承受的最大线程数来设计,不得使最终的线程数超过了所能承受的最大值。
2、 尽量使得每个block中线程数量是32的整数倍,最好保持在64~256之间,并根据任务的具体情况确定每个维度上的大小,以减少计算访存地址时的整数除法和求模运算;
如果有不对的地方轻喷。。。。。