MTCNN 的 TensorFlow 实现

最新推荐文章于 2025-03-14 16:18:22 发布

FortiLZ

最新推荐文章于 2025-03-14 16:18:22 发布

阅读量1.6w

点赞数 19

分类专栏： model zoo 文章标签： mtcnn tensorflow AI

本文链接：https://blog.csdn.net/FortiLZ/article/details/81396566

版权

本文详细介绍了如何使用 TensorFlow 实现 MTCNN 人脸识别系统，包括数据集、模型构建、数据处理流程以及如何在 TensorFlow Serving 上部署。重点讲解了 PNet、RNet 和 ONet 的构建，并给出了代码实现和关键步骤的解释。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

代码及原文贴在我的 github 上：
https://github.com/FortiLeiZhang/model_zoo/tree/master/TensorFlow/mtcnn

MTCNN 的 TensorFlow 实现

Magic Vision 要加人脸识别功能，所以要在 TensorFlow Serving 上起一个人脸识别服务，自然想到的是 Google 的 Facenet。由于 Google 官方提供下载的 Facenet 模型中有个 bug 导致其 serving 不起来，所以要在他们的源代码上进行修改重新训练。于是乎我想干脆把他们的代码自己重新写一遍算了。至于如何从头开始训练 Facenet，参见这篇文章。

Facenet 的实现过程包括两步，首先是用 MTCNN 将图片中的人脸框出来，第二步是识别框出来的人脸是谁。这里先完成第一步，即 MTCNN 的 TensorFlow 实现，并将得到的 model 在 TensorFlow Serving 上跑起来。

MTCNN 原始论文中的代码是用 MATLAB 实现的。Facenet 只是将 MATLAB 代码翻译成了 TensorFlow , 并使用已经训练好的模型参数。这里不得不吐槽一下原始论文中的 MATLAB 代码，到处都是多余的 T 啊，有事没事的就来个转置，这肯定是平时写论文推公式养成的习惯，见到个矩阵后面就加个 T，本来好好的 (x, y) 坐标，非得要加个 T 变成 (y, x)，完事再 T 回来。Google 也耿直，翻译代码的时候也是见到 T 就 np.transpose。我试着将多余的转置去掉，发现不行，结果不对，可能现成的参数就是这么训练出来的，如果去掉转置的话，参数可能对不上。长话短说，还是先看代码吧。

1. Dataset : CASIA-maxpy-clean

Facenet 用的是 CASIA-webface dataset 进行训练。这个 dataset 在原始地址已经下载不到了，而且这个 dataset 据说有很多无效的图片，所以我用的是清理过的数据库。该数据库在百度网盘有下载：下载地址，提取密码为 3zbb。

这个数据库有 10575 个类别，每个类别都有各自的文件夹，里面有同一个人的几张或者几十张不等的脸部图片。MTCNN 的工作就是从这些照片中把人物的脸框出来，然后交给下面的 Facenet 去处理。这里建立一个 ImageClass，存储各个类别的编号名称和该类别下所有图片的绝对路径。

2. 建立 MTCNN 模型

首先要在 main 函数中起一个 Graph，模型的图就建在这个 Graph 中，然后在此 Graph 中起一个 session 来运行函数执行命令建立三个 CNN：Proposal Network (P-Net), Refine Network (R-Net) 和 Output Network (O-Net)。

with tf.Graph().as_default():
    gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=args.gpu_memory_fraction)
    sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options, log_device_placement=False))
    with sess.as_default():
        pnet, rnet, onet = detect_face.create_mtcnn(sess, None)

Google Facenet 的原作者在建立网络时，自己重写了 CNN 网络所需要的各个组件，包括 Conv 层，MaxPool 层，Softmax 层等等。这里我偷点懒，用现成的 Keras 来实现各个组件。这里先只关注网络是如何搭建的，至于网络的输入输出以及是如何运作的，在下一节细说。