- 对一般的软件或者GPU推理都是执行n次前向推理,然后记录总时间,最后求个平均耗时。
- 对于特殊的硬件,例如加速器硬件。那就有两种,一种是实际推理求时间。另外一种就是编译器直接估计,因为编译器在拿到模型后就知道在硬件上的执行过程了,需要多少指令和指令周期都知道。这时候忽略带宽因素就可以预估一个推理速度(这个速度看上去会很快,和实际上系统差距比较大)。
07-24
1664
09-30
5682
06-02
2861
07-15
2990
06-25
662
05-06