今天算是切身体会到nvcc编译器的坑爹了,真心在瞎编。对于这点,可以用nv的profile 反汇编出nvcc编译出的目标代码,若想和源码对应,则需加上-lineinfo编译选项。
在profile的individual kernel——perform computing analysis——instruction execution这里,然后双击右侧的kernel,即可弹出。(这里的步骤选项是大致的意思,并没有字字对应)
然后选择PC sampling(看指令延迟),双击右侧kernel.
profiler是个好东西,是目前优化必用啊。。。