动态人脸识别原理和相关测试数据

目录

 1.动态人脸识别原理流程图

2.精度指标

2.1 人脸检测

2.2人脸识别

3.测试视频


1.动态人脸识别原理流程图

2.精度指标

2.1 人脸检测

人脸检测模块采用的是SCRFD系列模型中的scrfd_500m_kps模型,该模型是2021年5月提出的,目前已被收录进Insightface,其鲁棒性和实时性已得到广泛验证,可以灵活应用于多个人脸检测的场景中,其相关指标数据如下。

ResNet系列模型的对比结果

Method

Backbone

Easy

Medium

Hard

#Params(M)

#Flops(G)

Infer(ms)

DSFD (CVPR19)ResNet15294.2991.4771.39120.06259.5555.6
RetinaFace (CVPR20)ResNet5094.9291.9064.1729.5037.5921.7
HAMBox (CVPR20)ResNet5095.2793.7676.7530.2443.2825.9
TinaFace (Arxiv20)ResNet5095.6194.2581.4337.98172.9538.9
ResNet-34GFResNet5095.6494.2284.0224.8134.1611.8
SCRFD-34GFBottleneck Res96.0694.9285.299.8034.1311.7
ResNet-10GFResNet34x0.594.6992.9080.426.8510.186.3
SCRFD-10GFBasic Res95.1693.8783.053.869.984.9
ResNet-2.5GFResNet34x0.2593.2191.1174.471.622.575.4
SCRFD-2.5GFBasic Res93.7892.1677.870.672.534.2

Mobile系列模型的比对结果

Method

Backbone

Easy

Medium

Hard

#Params(M)

#Flops(G)

Infer(ms)

RetinaFace (CVPR20)MobileNet0.2587.7881.1647.320.440.8027.9
FaceBoxes (IJCB17)-76.1757.1724.181.010.2752.5
MobileNet-0.5GFMobileNetx0.2590.3887.0566.680.370.5073.7
SCRFD-0.5GFDepth-wise Conv90.5788.1268.510.570.5083.6

SCRFD-0.5GF在X64 CPU上的性能,其中精度和推理时间是AMD Ryzen 9 3950X上测评得到的。

Test-Input-Size

CPU Single-Thread

Easy

Medium

Hard

Original-Size(scale1.0)-90.9189.4982.03
640x48028.3ms90.5788.1268.51
320x24011.4ms---

通过以上数据,可以得出SCRFD模型在人脸检测方面是有着不错的表现。根据我们需要应用的场景为机器人平台,对实时性有着较高的要求,通过实际测试得出,SCRFD_0.5g_kps模型对于尺度大于32x32的人脸均能较好的检测出,且在NVIDIA NX平台上测试,对于640x480pixel的输入图像,基于NCNN GPU框架下,其推理时耗为28ms左右,且能提供人脸的5个KPS信息,精度和实时性都较好的满足了我们应用场景的需求,且能满足后续人脸识别等工作的展开,故选用该模型进行人脸检测。

2.2人脸识别

考虑机器人的硬件平台为边缘端,故能支持的算力有限,因此人脸识别模型主要考虑轻量级的网络。对近两年相关的算法、数据进行调研后,人脸识别模型采用MobileFaceNet为主干网络,在此基础上做一些调整,其模型参数量只有0.99M,MAdds乘加数计算量为221M,相对于常见的人脸识别模型沉重的计算量,该模型轻量级,适用于机器人边缘端的应用,其相关测试结果如下。

(1)常见的轻量级人脸识别模型在CASIA-Webface数据集进行训练后,在LFW、AgeDB-30数据集上测试得到的结果如下表(其测试的硬件平台为高通骁龙4核CPU,在NCNN框架上进行推理)

LFW

AgeDB-30

Params

Speed

LFW

AgeDB-30

Params

Speed

MobileNetV198.63%88.95%3.2M60ms
ShuffleNet98.70%89.27%0.83M27ms
MobileNetV298.58%88.81%2.1M49ms
MobileNetV2-GDConv98.88%90.67%2.1M50ms
Our99.28%93.05%0.99M24ms

(2)在清洗后的数据集MS-Celeb-1M(其中有85k受试者)上进行训练后,在LFW数据集上其测试结果如下表

Model Size

LFW Acc

DeepFR0.5GB98.95%
Center Face105MB99.28%
ArcFace(LResNet100E-IR)250MB99.83%
FaceNet30MB99.63%
ShiftFaceNet3.1MB96.00%
Our4.0MB99.55%

通过以上表格对比数据可以看到我们使用的模型在不同数据集上的表现良好,精度和计算量达到了一个较好的平衡,适用于机器人端的应用。

考虑机器人目前的应用场景,应用时采用了格林深瞳提供的glint360数据集(主要为亚洲人脸)进行训练,并使用业务场景中采集的数据集进行finetune。在数据集lfw、cfp_fp、agedb30数据集(主要为欧美人脸)上测试结果如下:

agedb30

cfp_fp

lfw

Our98.38%97.27%97.17%

得到的模型大小为8M,在NVIDIA NX上测试,对于112x112大小的输入图像,单次提取人脸特征时耗为8ms左右,对于>=60x60pixel大小的较正面人脸,均能较好的提取人脸特征,满足机器人场景应用需求。

3.测试视频

在NVIDIA NX设备上,使用deepstream框架,运行结果如下。

VIDEO_20230302_152420862

单路视频,帧率大概为31FPS。

VIDEO_20230302_152420895

四路视频同时运行,帧率为86FPS。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值