对于一个只有8个SP的SM来说,为什么可以说能同时执行32个线程(即一个Warp)的理解
通过跟师兄的咨询后总结如下:理解1:一个SM有8个SP,SM执行一个Warp时有32个线程,这32各线程在8个SP上执行4次,实际上是8个8个轮替,严格意义上来讲不是同时执行,只是隐藏延迟,因为软件层我们是将其抽象出来,因此可以说是同时执行。 2:当一个SM中有更多的SP时,例如GP100这种,一个SM上有64个SP,线程也不一定是平摊的,看具体架构的官方文档。一般情况下还是8个sp执行...
原创
2018-09-11 21:24:57 ·
4159 阅读 ·
0 评论