人脸识别笔记

face detection除了CNN还可以用DPM、model-based、exemplar-based、cascade structure做;face alignment有两种方法Regression-based methods和template fitting approaches;MTCNN是少数将detection和alignment一起做的算法;mining hard samples很重要(注意只对3个task的第一个有关,即face/non-face),分为online(本文采用,更好)和offline方式;

首先将图像缩放成‘图像金字塔’;利用P-Net提出候选框以及对应的bbox回归向量并校准,然后用non-maximum suppression (NMS)合并高度重叠的候选框;输入到R-Net来过滤掉大量错误候选框,再次利用bbox回归进行校准,以及NMS合并;O-Net输出5个关键点的位置;专门和Cascade CNN进行了三个网络的准确率对比,都比前者高;三个task一起训练:face/non-face classification, bounding box regression, and facial landmark localization,前者是个二分类问题,使用cross-entropy loss,中间的是回归问题,使用左上角以及宽高,欧拉loss;后者也是回归问题,也是使用欧拉loss,使用左眼有眼左边嘴右边嘴鼻子,一共5个坐标对应10维向量;整个训练是一个联合的多loss训练,P-Net(和R-Net)、O-Net分别的3种loss比例设置为2:1:1和2:1:2,即O-Net对关键点关注更多一点;三个task分别在三个不同数据集上训练;作者说他的face detection准确率比以往方法都高,具体是看PR曲线包围的面积;face alignment也比以往方法好很多,具体分别比较眼睛鼻子嘴巴的准确率;实时性很好;

为啥mining hard samples很重要?因为简单的样本训练出来的网络不会具有很好的泛化能力或探测能力。P-Net、R-Net、O-Net如何发生级联关系??依次将输出传递给后者???每个网络在前一个网络的基础上继续训练和完善,如过滤掉大框无效框;虽然对同一张图像进行训练,因此各种标记(如关键点和框回归)是一样的,但由于P-Net、R-Net、O-Net的网络结构以及卷积池化全连接参

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值