[论文笔记] RetinaFace 阅读笔记

最新推荐文章于 2024-05-21 23:34:16 发布

吉他A梦

最新推荐文章于 2024-05-21 23:34:16 发布

阅读量745

点赞数

分类专栏：论文笔记文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/qq_44690067/article/details/126262253

版权

32 篇文章 2 订阅

订阅专栏

RetinaFace: Single-stage Dense Face Localisation in the Wild（CVPR 2020）

之前看了一篇ASFD，也取得了SOTA，但是没有开源；因此目前最强开源人脸检测算法就是RetinaFace。（不知道MogFace算不算更强的）
后续的人脸检测可能就从RetinaFace上面魔改了

在这里插入图片描述

改进了单阶段人脸检测框架，并通过利用强监督和自监督信号的multi-task loss，提出了一种最先进的密集人脸定位方法

在这里插入图片描述

我们定义彩色面网格 $\mathcal{G} = (\mathcal V,\mathcal E)$ ，其中 $\mathcal V\in\mathbb R^{n×6}$ 是包含脸部形状和纹理等信息的顶点集， $\mathcal E\in\{0,1\}^{n×n}$ 是一个稀疏的邻接矩阵，用来编码顶点之间的连接关系。图拉普拉斯定义为 $L=D-\mathcal E∈R^{n×n}$ ，其中 $D∈\mathbb R^{n×n}$ 是一个对角矩阵， $D_{ii}=∑_j \mathcal E_{ij}$
核为 $g_θ$ 的图卷积可以被表述为一个 $K$ 阶截断的递归切比雪夫多项式
$y=g_\theta(L)x=\sum_{k=0}^{K-1}\theta_kT_k(\~L)x$ 其中 $\theta\in \mathbb R^K$ 是切比雪夫系数的向量， $T_k(\~L)\in\mathbb R^{n×n}$ 是在标度拉普拉斯算子 $\~L$ 处评估的 $k$ 阶切比雪夫多项式。表示 $x_k = T_k (\~L)x ∈Rn$ ，我们可以循环计算 $\bar x_k = 2 \~L\bar x_{k−1}− \bar x_{k−2}$ ，其中 $\bar x_0 = x$ 和 $\bar x_1 = \~Lx$ 。整个滤波操作非常有效，包括 $K$ 次稀疏矩阵向量乘法和一次密集矩阵向量乘法 $g_θ(L)x = [\bar x_0,..., \bar x_{K−1}]θ$

在预测形状和纹理参数 $P_{ST} ∈ \mathbb R^{128}$ 之后，使用可微分 3D 网格渲染器将彩色网格 $D_{P_{ST}}$ 投影到具有camera参数 $P_{cam} = [x_c,y_c,z_c,x'_c,y'_c,z'_c,f_c]$ 的 2D 图像平面（即相机位置、相机姿态和焦距）和照明参数 $P_{ill} = [x_l,y_l,z_l,r_l,g_l,b_l,r_a,g_a,b_a]$ （即位置点光源的颜色值和环境照明的颜色）

$L_{pixel}=\frac{1}{W*H}\sum^W_i\sum^H_j\parallel\mathcal{R}(\mathcal{D}_{P_{st}},P_{cam},P_{ill})_{i,j}-I^*_{i,j}\parallel_1$ ，其中 $W, H$ 表示anchor crop $I_{i,j}^*$ 的宽和高

在这里插入图片描述

在这里插入图片描述

Anchor设置：在从 $P_2-P_6$ 的特征金字塔上使用特定尺度的anchor。输入图像大小为 640×640，anchors 可以覆盖特征金字塔级别上从 16×16 到 406×406 的尺度。总共有 102300 个anchor，其中 75% 的 anchor 来自 $P_2$
消融实验：其中DCN表示可变形卷积
人脸box准确率：
面部5个landmark的准确率：NME表示normalised mean errors，CED表示 cumulative error distributio
面部稠密landmark 的准确率：
面部识别准确率：
推理效率：