关于神经网络模型评估的一些笔记

最新推荐文章于 2024-06-22 10:30:00 发布

RERATEwqewq

最新推荐文章于 2024-06-22 10:30:00 发布

阅读量847

点赞数 12

文章标签：神经网络笔记人工智能深度学习

本文链接：https://blog.csdn.net/Shale1334/article/details/136142851

版权

自己学习的笔记，欢迎各位指正。

mAP

mean of Average Precision的缩写，意思是平均精确度（average precision）的平均（mean），是object detection中模型性能的衡量标准。

TP : True Positives（真正例）
FP : False Positives（假正例）
TN : True Negatives（真负例）
FN : False Negatives（假负例)
为了获取TP和FP要用IOU，计算IOU，我们从而确定一个检测结果（Positive）是正确的（True）还是错误的（False），最常用的阈值是0.5。同时类别正确置信度大于一定阈值。
$Precision=\frac {TP}{TP+FP}$
要计算Recall要TN，FN。但图像中大部分没有物体也没检测到物体的部分都是TN，我们可以只计算FN。
$Recall=\frac {TP}{TP+FN}$
随着阈值增加P和R都会减小。

计算mAP

AP是计算单类别的模型平均准确度。
AP=平滑后PR曲线下包围的面积
不同数据集上的AP和mAP计算定义略不同。
VOC数据集中的mAP计算的是固定IoU_threshold=0.5，再综合考虑各个P_threshold下的模型平均准确度。
而COCO是取IoU_threshold=0.5，0.55， 0.6，… , 0.95时，各个mAP的均值。

FLOPS and FLOPs

FLOPS：指每秒浮点运算次数，可以理解为计算的速度。是衡量硬件性能的一个指标。
FLOPs：指浮点运算数，理解为计算量。可以用来衡量算法/模型的时间复杂度。（模型）在论文中常用GFLOPs（1 GFLOPs = 10^9 FLOPs）

$Conv2d( C_{out}, C_{in}, kernel= K, stride= S, padding= P, bias= False)$
输入Feature map: $B,C_{in},W_{in},H_{in})$ ,输出 Feature map: $B,C_{out},W_{out},H_{out})$ , 计算如下：

$\mathrm{FLOPs}=\left(2\times C_{in}\times K^2-1\right)\times W_{out}\times H_{out}\times C_{out}$

$Liner(C_{in},C_{out},bias=False)$ ,输入 sequence $B,num,C_{in})$ , 输出 sequence: $B,num,C_{out})$ ,计算如下：

$\mathrm{FLOPs}=B\times[(2\times C_{in}-1)\times C_{out}]$
BatchNorm2D层经常和卷积层连用，而在程序里面，这两个可以合并运算，因此不会增加 FLOPs。

计算

import torch
from thop import profile

net = Model()  
inputs = torch.randn(1, 3, 112, 112)
flops, params = profile(net, (inputs,))
print('FLOPs: ', flops, 'params: ', params)

用torchstat也行。
但是只看FLOPs作为指标并不准确，它没有考虑到MAC(内存访问成本)和并行度
分组卷积会比较消耗MAC。

Roofline

计算模型在计算平台上所能达到理论计算性能上限。

计算平台的指标

算力 $\pi$ ：理论性能峰值，单位是 FLOPS or FLOP/s。
带宽 $\beta$ ：计算平台的带宽上限。单位是Byte/s
计算强度 $I{\max}$ ： $I{\max}=\frac{\pi}{\beta}$
$理论性能峰值=\frac{频率*512*AVX数量*FMA}{32/64}$

AVX和FMA并不是必要的，32/64取决于当前处理问题是单精度（32）或者双精度（64）

模型的两个指标：计算量与访存量

计算量：指的是输入单个样本（对于CNN而言就是一张图像），模型进行一次完整的前向传播所发生的浮点运算个数，也即模型的时间复杂度（FLOPs）。
访存量：指的是输入单个样本，模型完成一次前向传播过程中所发生的内存交换总量，也即模型的空间复杂度。在理想情况下（即不考虑片上缓存），模型的访存量就是模型各层权重参数的内存占用（Kernel Mem）与每层所输出的特征图的内存占用（Output Mem）之和。单位是Byte。由于数据类型通常为float32 ，因此需要乘以四。
模型的计算强度 $I$ ：由计算量除以访存量就可以得到模型的计算强度，它表示此模型在计算过程中，每Byte内存交换到底用于进行多少次浮点运算。单位是FLOPs/Byte。可以看到，模计算强度越大，其内存使用效率越高。
模型的理论性能 $P$ ：我们最关心的指标，即模型在计算平台上所能达到的每秒浮点运算次数（理论值）。单位是 FLOPS or FLOP/s。