深度学习_人脸检测_LFFD轻量级人脸检测模型论文详解

最新推荐文章于 2024-04-25 09:50:59 发布

Rocky Ding*

最新推荐文章于 2024-04-25 09:50:59 发布

阅读量1.7k

点赞数

分类专栏： # 人脸检测文章标签：计算机视觉深度学习机器学习 LDDF 人脸检测

本文链接：https://blog.csdn.net/Rocky6688/article/details/106999251

版权

7 篇文章

订阅专栏

总体思路

LFFD是由中科院提出的新型单目标检测模型，适用于人脸、行人、车辆等单目标检测，速度快模型小效果好，可以在RTX2070下使用TensorRT跑2k图片90fps。

论文研究了感受野（RF）与有效感受野（ERF）的关联与重要性，使用感受野替代Anchors，即Anchor-free的方法。在一个基础模型结构上分别抽取8路特征图对从小到大的人脸进行检测，检测模块分为类别二分类与边界回归。

主要优势：

在这里插入图片描述

很小的人脸往往难以确认检测，需要更多的上下文信息例如脖子和肩膀等来辅助检测。如下图所示：

在这里插入图片描述

在这里插入图片描述

模型主要由四部分组成：tiny part、small part、medium part、large part。

模型中并没有采用BN层，因为BN层会减慢17%的推理速度。

尽可能快的进行下采样而保持100%的人脸覆盖。

作者认为RF就是天然的anchor，由于人脸目标一般是方的，所以不需要考虑各种比例的box。在box匹配的时候，作者认为rf中心落在ground truth内的box为正样本，同时落在多个ground truth中的box忽略掉、其他没有落在任何ground truth中的box为负样本。

100 pixels的RF的有效感受野为20-40pixels，所以作者就分了四个part，tiny part的c8 RF SIZE为55，去检测10-15pixels的人脸，c10检测15-20，以此类推。
在这里插入图片描述

论文中Loss是由regression loss和classification loss的加权和。

分类损失：

交叉熵损失。

回归损失：

L2损失函数。

在这里插入图片描述

gray scale：

box匹配的时候定义了gray scale，认为处于gray scale的box所在的branch是不反传这些对应的loss的。

对c13出的box而言，其检测的人脸像素为20-40pixels，认为[18,20]以及[40,44]像素的人脸不被c13预测，这是因为这些人脸属于hard目标，网络往往只能看到局部特征，很难判别，所以c13这个brach不预测他，让别的branch预测，对训练有好处。

数据增强：颜色抖动（color distort）、随机水平翻转（Randomly horizontal flip）、对各尺寸人脸随机采样（Random sampling for each scale）。
对于一个感受野多于两个人脸的区域被舍弃。
损失函数。
难分负样本挖掘：对负样本损失值排序后选择最高的几个，保证正负样本比例为1: 10。
训练参数：Xavier初始化；输入图片标准化= (img-127.5)/127.5；weight decay为0（参数少）；初始学习率0.1，之后以0.1倍数减小；1080ti训练了5天。