MTCNN中 Pnet候选框生成算法
简介
在mtcnn算法中的Pnet是为了得到一批人脸框。过程如下
针对金字塔中每张图,网络forward计算后都得到了人脸得分以及人脸框回归的结果。人脸分类得分是两个通道的三维矩阵m* m* 2,其实对应在网络输入图片上m* m个12* 12的滑框,结合当前图片在金字塔图片中的缩放scale,可以推算出每个滑框在原始图像中的具体坐标。
首先要根据得分进行筛选,得分低于阈值的滑框,排除。
当金字塔中所有图片处理完后,再利用nms对汇总的滑框进行合并,然后利用最后剩余的滑框对应的Bbox结果转换成原始图像中像素坐标,也就是得到了人脸框的坐标。
Pnet最终能够得到了一批人脸框。
选择候选框信息
我们这里就研究学习一下这个候选框的生成的过程原理。
虽然网络定义的时候input的size是12 * 12* 3,由于Pnet只有卷积层,我们可以直接将resize后的图像给网络进行前传,只是得到的结果不是1* 1* 2和1* 1* 4,而是m* m* 2和m* m* 4。这样就不用先从resize的图上滑动截取各种12* 12* 3的图进入网络,而是一次性送入通过卷积,在根据结果回推每个结果对应的12* 12的图在输入图的什么位置。利用的就是卷积来代替原来的滑动窗口。
然后利用nms非极大值抑制,对剩下的滑框进行合并。nms具体解释,可以参照我上一篇博客:NMS非极大值抑制
源码
vector<FaceInfo> generateBbox(ncnn::Mat score, ncnn::Mat loc, float scale, float thresh)
{
int stride = 2;
int cellsize = 12;//人脸的最小检测范围
float *p = score.channel(1);//得到是否是人脸的概率
float inv_scale = 1.0f / scale;//放大的倍率
vector<FaceInfo> results;//用来存放生成候选框的集合
for (int row = 0; row < score.h; row++)
{
for (int col = 0; col < score.w; col++)
{
if (*p > thresh)//人脸的概率大于阈值才生产候选框
{
FaceInfo box;
box.score = *p;
box.x[0] = round((stride * col + 1) * inv_scale);
box.y[0] = round((stride * row + 1) * inv_scale);
box.x[1] = round((stride * col + 1 + cellsize) * inv_scale);
box.y[1] = round((stride * row + 1 + cellsize) * inv_scale);//卷积代替滑动窗口过程,所以每一个值,对应的就是图中的一个窗口。
//*inv_scale是为了定位在原图中的坐标
box.area = (box.x[1] - box.x[0]) * (box.y[1] - box.y[0]);//候选框面积
int index = row * score.w + col;
for (int c = 0; c < 4; c++)
box.regreCoord[c] = loc.channel(c)[index];//候选框的修正信息
results.push_back(box);
}
p++;
}
}
return results;
}