MTCNN中 Pnet候选框生成算法

最新推荐文章于 2023-01-07 04:44:31 发布

楚门.

最新推荐文章于 2023-01-07 04:44:31 发布

阅读量1.1w

点赞数 3

CC 4.0 BY-SA版权

分类专栏： mtcnn源码解析C++ 文章标签： Pnet mtcnn 候选框生成

本文链接：https://blog.csdn.net/WYR_try/article/details/90303967

mtcnn源码解析C++ 专栏收录该内容

3 篇文章

订阅专栏

本文介绍MTCNN中Pnet候选框生成算法。Pnet用于得到一批人脸框，针对金字塔中每张图经网络forward计算，得到人脸得分和框回归结果，筛选得分高于阈值的滑框，用nms合并，转换为原始图像像素坐标。还研究候选框生成原理，用卷积代替滑动窗口，最后给出源码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MTCNN中 Pnet候选框生成算法

简介

在mtcnn算法中的Pnet是为了得到一批人脸框。过程如下
针对金字塔中每张图，网络forward计算后都得到了人脸得分以及人脸框回归的结果。人脸分类得分是两个通道的三维矩阵m* m* 2，其实对应在网络输入图片上m* m个12* 12的滑框，结合当前图片在金字塔图片中的缩放scale，可以推算出每个滑框在原始图像中的具体坐标。
首先要根据得分进行筛选，得分低于阈值的滑框，排除。
当金字塔中所有图片处理完后，再利用nms对汇总的滑框进行合并，然后利用最后剩余的滑框对应的Bbox结果转换成原始图像中像素坐标，也就是得到了人脸框的坐标。
Pnet最终能够得到了一批人脸框。

选择候选框信息

我们这里就研究学习一下这个候选框的生成的过程原理。
虽然网络定义的时候input的size是12 * 12* 3，由于Pnet只有卷积层，我们可以直接将resize后的图像给网络进行前传，只是得到的结果不是1* 1* 2和1* 1* 4，而是m* m* 2和m* m* 4。这样就不用先从resize的图上滑动截取各种12* 12* 3的图进入网络，而是一次性送入通过卷积，在根据结果回推每个结果对应的12* 12的图在输入图的什么位置。利用的就是卷积来代替原来的滑动窗口。
然后利用nms非极大值抑制，对剩下的滑框进行合并。nms具体解释，可以参照我上一篇博客：NMS非极大值抑制

源码

vector<FaceInfo> generateBbox(ncnn::Mat score, ncnn::Mat loc, float scale, float thresh)
{
    int stride = 2;
    int cellsize = 12;//人脸的最小检测范围
    float *p = score.channel(1);//得到是否是人脸的概率
    float inv_scale = 1.0f / scale;//放大的倍率
    vector<FaceInfo> results;//用来存放生成候选框的集合
    for (int row = 0; row < score.h; row++)
    {
        for (int col = 0; col < score.w; col++)
        {
            if (*p > thresh)//人脸的概率大于阈值才生产候选框
            {
                FaceInfo box;
                box.score = *p;
                box.x[0] = round((stride * col + 1) * inv_scale);
                box.y[0] = round((stride * row + 1) * inv_scale);
                box.x[1] = round((stride * col + 1 + cellsize) * inv_scale);
                box.y[1] = round((stride * row + 1 + cellsize) * inv_scale);//卷积代替滑动窗口过程，所以每一个值，对应的就是图中的一个窗口。
                //*inv_scale是为了定位在原图中的坐标
                box.area = (box.x[1] - box.x[0]) * (box.y[1] - box.y[0]);//候选框面积
                int index = row * score.w + col;
                for (int c = 0; c < 4; c++)
                    box.regreCoord[c] = loc.channel(c)[index];//候选框的修正信息
                results.push_back(box); 
            }
            p++;        
        }
    }
    return results;
}