cudamalloc占用的时间是几十ms量级,而且当且仅当第一次调用cudamalloc时候耗用这么多时间,如果你算法在10ms量级的话,设计时候就要考虑了cuda stream不知道有人用没?跑simple stream的话,似乎用stream的时间要比不用长,在280和8800均测试过to be continued