MTCNN的训练与测试小结

最新推荐文章于 2024-04-26 12:15:47 发布

向前跑_汪汪

最新推荐文章于 2024-04-26 12:15:47 发布

阅读量2.9k

点赞数

本文链接：https://blog.csdn.net/m0_37598149/article/details/82659668

版权

本文详细介绍了MTCNN的工作原理，包括网络结构、训练数据的准备、损失函数权重设置以及hard mining策略。MTCNN由三个网络组成，分别用于初步检测、精确定位和关键点回归。在测试阶段，使用金字塔处理图像，通过NMS和位置矫正提高召回率。对于训练数据，使用wider和celeba数据库，并按比例划分样本类型。对于网络，PNet全卷积，RNet和ONet则包含额外的回归任务。

摘要由CSDN通过智能技术生成

本文重点介绍其中一篇关注度比较高的文章《Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks》也就是标题中提到的MTCNN。

MTCNN网络结构

训练数据：该算法训练数据来源于wider和celeba两个公开的数据库，wider提供人脸检测数据，在大图上标注了人脸框groundtruth的坐标信息，celeba提供了5个landmark点的数据。根据参与任务的不同，将训练数据分为四类：人脸正样本（positives）、非人脸负样本（negatives）、部分脸（partfaces）、关键点（landmark）。positives、negatives、partfaces由随机取的框与groundtruth的overlap区域比例的大小决定，大于0.65为positives，小于0.3为negatives，0.4到0.65之间为partfaces。positives和negatives参与到分类任务，positives和partfaces参与到回归任务，landmark数据参与到关键点回归任务。关键点回归仅在第三个net中实用，此时landmark数据的人脸框位置可由前两个net的模型检测得到，或是由landmark的坐标位置拟合出来。在每个batchSize中的样本比例如下，positives：negatives：partfaces：landmark = 1 ： 3 ： 1 ： 2。到此为止，数据的