RetinaFace-Pytorch

1. 前言

我先是想跑原作者biubug6的源码,但是没有跑动.原因是爆显存,debug模式下发现train.py被反复执行直到显存爆满停止.debug失败qwq.贴一下源码地址

原作者Retinaface Github源码地址

于是后面fork了bubbliiiing修改的Retinaface,clone下来直接训练就正常了,b站还有配套的讲解视频,真的是小白救星哈哈哈.

bubbliiiing魔改+解析 Github源码地址

这里主要记录一下我的一些理解,详细的可以去看bubbliiiing的b站视频,里面基本讲得比较全面,代码中的注释也是做到了非常详尽

2. 网络结构理解

  1. 图像输入网络后首先进入backbone主干特征提取网络进行初步的特征提取,输出3层不同shape的特征图
  2. 利用这3层特征层进行上采样特征融合构建FPN特征金字塔
  3. 三层融合特征再分别输入SSH模块来提高感受野
  4. 多任务输出
    4.1 类别输出-是否有人脸?
    4.2 检测框输出-人脸在哪?
    4.3 人脸关键点输出

2.1 backbone

主干特征提取网络(面试被问到了,这里补习一下)
目前的目标检测技术框架主要分为单阶段检测器SSD和两阶段法(以R-CNN为代表)两种.两者的主要区别是SSD直接在特征图上生成候选框,而两阶段法通过区域推荐网络RPN的子网络来辅助生成候选框.

这里还有一个操作就是导入了预训练参数,checkpoint中存放的参数是基于大型数据集训练出来的,具有一定的泛化性,这里load到我们的backbone中能够加快模型的训练,使Loss更快收敛

[1]蒋弘毅,王永娟,康锦煜.目标检测模型及其优化方法综述[J].自动化学报,2021,47(06):1232-1255.DOI:10.16383/j.aas.c190756.

2.1.1 MobileNet V1

MobileNet最大的特点就是使用了深度可分离卷积块,就是利用1×1的卷积来将提取特征和升/降维度两步分开从而减少了参数量.具体实现的过程:

  • 普通卷积块:使用output_channel个kernel_size×kernel_size×input_channel的卷积filter来对输入做运算

  • 深度可分离卷积块:①先用1个kernel_size×kernel_size×input_channel来对输入做运算;—提取特征

    ​ ②再用output_channel个1×1×input_channel的卷积filter对①的输出运算;—升维

可以计算一下,这样一步分离操作后参数量大幅减少.

所以这里也可以积累一个1×1卷积的作用–调整通道数,再往深讲就是可以作为分支来调整特征融合时的通道数

2.1.2 ResNet50

继续学习

2.2 FPN

利用2.1的主干特征提取网络,我们获取到了3种shape的特征图,对应网络中由浅及深的特征层.FPN就是在对这3层不同深度的特征层进行特征融合

  • 首先利用1×1卷积filter调整通道数将三种shape的通道数统一
  • 对最深层的特征图进行上采样到上一层的shape大小并融合,再做一次卷积激活
  • 同理将②中融合后的特征图用同样的方式与第一层融合,再做一次卷积激活
  • FPN最终输出向上融合了特征后的三层特征

这里可以理解一下:FPN在做的其实是把更深层的特征融合到浅层的特征中,更深的特征图具有更大的感受野,能够识别图像中较大的目标–人脸.

2.3 SSH

SSH做的是一个加强特征提取模块,原始的SSH是使用的5×5和7×7卷积来对不同尺度目标特征进行提取的,但是这里借鉴了MobileNet模块来使用小的卷积核来减少参数运算量.具体实现就是使用多个3×3卷积来代替大的卷积核.

SSH在做的仍然是_加强_感受野,对不同尺度的特征图再用不同尺度的卷积核(达到效果)来提取不同尺度的目标特征.最终SSH模块仍然输出3个有效特征层来进行下一个任务–多任务目标检测

2.4 multi-task

  • 2.3中获取到的3层特征图,对特征图划分成网格图,每个网格中会生成num_anchors个先验框,如果框内有目标,就会对先验框进行调整,最后获取最终的预测框

  • 获取预测框后,网络继续对目标关键点调整,获得到人脸关键点

2.4.1 分类结果预测

2.3中输入进来的特征图利用1×1的卷积filter直接将通道数调整为num_anchors×2,这里很好理解,也很直接…2对应的就是每个先验框内是否有目标的概率,而num_anchors表示的就是对于通道调整后的特征图,每个网格内生成两个anchor框,并且通过概率判断框内是否有目标

2.4.2 预测框

同2.4.1,利用1×1卷积将通道数调整为num_anchors×4,4存放的是先验框中心x,y坐标和宽高w,h坐标的调整参数

2.4.3 人脸关键点

同2.4.1,利用1×1卷积将通道数调整为num_anchors×5×2,5表示目标的5个关键点,2表示的是关键点x,y坐标的调整参数

3. 先验框及关键点调整

框及关键点的调整就都属于纯python的数据处理了,注意torch中各通道的排列是NCHW,在取数据的时候一定要注意好height和weight在哪一维度

  • 基本的构建理念就是对每一个特征图划分好方格区域,再在每一个方格区域中生成num_anchors个正方形先验框.
  • 这里就能很容易得理解为什么RetinaFace成为SSD单阶段检测器(直接在特征图上生成先验框)

4. 训练

4.1冻结

  • 在训练初期的一定量Epoch采用Freeze_Epoch,即冻结状态.冻结的是backbone主干特征提取网络,原因是主干占用较大,且初始的backbone具有一定的泛化性,先促进后续的网络结构参数进行拟合才是主要矛盾.

  • 进行了一定的Freeze_Epoch后,backbone后面的网络初步拟合,这时候解冻backbone,因为backbone的初始参数其实是很泛化的一组参数,比如不止有提取人脸,还有提取狗头的能力,这时候解冻主干来将主干网络进行拟合

5. 小结

SSD => yolov3 => retinanet => yolov4 => Faster RCNN => efficientdet

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,关于 Pytorch-RetinaFace 的代码讲解,我可以给您提供以下信息: 1. RetinaFace 模型介绍 RetinaFace 是一个用于人脸检测和人脸识别的深度学习模型,其核心思想是在多个尺度下进行特征提取,并利用类似于 Anchor 的方式进行边框预测。RetinaFace 模型的核心网络结构为 ResNet-50,通过 ResNet-50 提取特征,再分别在不同的特征图上进行预测,从而提高检测的准确率和速度。 2. Pytorch-RetinaFace 代码结构 Pytorch-RetinaFace 的代码结构主要包含以下几个文件: - data/ 目录:包含了数据集相关的代码和数据集文件; - models/ 目录:包含了 RetinaFace 模型的代码和模型文件; - layers/ 目录:包含了 RetinaFace 模型中用到的自定义层代码; - utils/ 目录:包含了一些工具类和函数; - train.py:训练脚本; - test.py:测试脚本; - demo.py:演示脚本。 3. RetinaFace 模型训练 RetinaFace 模型的训练主要包含以下几个步骤: - 数据集准备:将数据集按照指定格式进行划分和预处理; - 模型构建:使用 Pytorch 搭建 RetinaFace 模型,并定义损失函数和优化器; - 模型训练:使用训练集对模型进行训练,并在验证集上进行验证和调参; - 模型保存:将训练好的模型保存到指定的路径。 4. RetinaFace 模型测试 RetinaFace 模型的测试主要包含以下几个步骤: - 加载模型:使用 Pytorch 加载训练好的模型; - 图像预处理:将待检测的图像进行预处理,包括大小调整和归一化等; - 特征提取:使用 ResNet-50 提取图像的特征; - 预测边框:在不同的特征图上进行边框预测,并进行 NMS 处理; - 绘制结果:将预测出的边框和置信度绘制在原图上。 以上就是关于 Pytorch-RetinaFace 代码的讲解,希望能够对您有所帮助。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值