背景 radix_sort排序是一种经典排序,在gpu上都有对其进行支持,这里主要参考cub中的实现,简单介绍一种单block的情形, 本文只适合看过源码但是没有看懂的同学。 单个block 流程 在second step中完全实在ScanCounters()函数中,具体分为upsweep, exclusivesum, downsweep.最终的目的是吧share memory的值修改成为下图中最右边的结果。这里的流程可能会和源码有出入,但是结果没问题。 多个block(onesweep)