模型推理速度与硬件算力

本文讨论了模型推理速度与硬件算力的关系,包括模型的参数量、计算量、访存量和内存占用等衡量指标。计算平台的算力、带宽和计算强度上限也进行了分析。Roofline模型被用来解释硬件限制对性能的影响,同时强调了计算密集型和访存密集型算子在匹配硬件时的重要性。
摘要由CSDN通过智能技术生成

模型推理速度与硬件算力

1. 模型大小衡量指标

1.1 参数量

这里的参数量就是指模型的权重,对于 CNN 网络而言,主要就集中在 Conv 和 FC 层。

参数量主要会体现在模型的物理大小(硬盘占用大小),在运行时也会体现在内存(显存)占用上,对运行速度没有直接的影响(间接的影响显然是存在的)。具体来说就是,如果模型硬盘占用很大,显然会影响最终软件的大小,如果模型内存占用很多,显然会影响一块显卡(或其他硬件)能同时加载模型的数量。

参数量可以借助 thopsummary 或者 summaryx 获得。

1.2 计算量

  • FLOPs(Floating Point Operations)浮点计算次数,注意区别,不是 FLOPS,FLOPS(Floating Point Operations Per Second) 是一种衡量硬件计算速度的指标。

    比如对于 Conv 操作来说,乘和加各算一次操作,那么如果输入为 ( N , C , H , W ) (N, C, H, W) (N,C,H,W),卷积核为 ( k h , k w , C , C o u t ) (k_h, k_w, C, C_{out}) (kh,kw,C,Cout), 输出尺寸为 ( N , C o u t , H o u t , W o u t ) (N, C_{out}, H_{out}, W_{out}) (N,Cout,Hout,Wout),计算量如下:

    F L O P s = N ∗ C o u t ∗ H o u

  • 4
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值