OpenCV的dnn模块调用TesorFlow训练的MoblieNet模型

七月 上海| 高性能计算之GPU CUDA培训

7月27-29日 640?wx_fmt=jpeg 三天密集式学习  快速带你入门 阅读全文 >


正文共2073个字,2张图,预计阅读时间10分钟。


一、初得模型


那是一个月之前的事情了,我利用TesorFlow Object Detection API训练了现在目标检测里面应该是最快的网络MobileNet。当时的目的就只是学习整个finetuning的流程,于是我只是用了20张自己标注的人脸样本图片作为训练集去finetuning,训练完之后的模型通过修改TesorFlow Object Detection API自带的例程代码,即object_detection_tutorial.ipynb,运行结果竟然还不错,对于图片中的大小适中的人脸能够比较准确地检测,毕竟我只用了20个样本训练啊。当然,了解了流程和方法之后,以后多少样本的训练都不在话下......只要有足够数据和够好的显卡...


640?wx_fmt=png

tensorflow自带例子加载检测结果


二、C++调用之难,难于上西天


然而,其实我训练的目标检测模型是要在C++环境下用的。TensorFlow也提供了C++ API,但是要用的话需要自己从源码编译,而且用的是Bazel。是的,我用的是Windows,所以,在尝试安装BazelN次失败之后,我尝试用OpenCV3.3.0新出的dnn模块调用训练好的模型。然而新出的dnn模块当时支持的模型太少了,它支持ssd-mobilenet的caffe模型,但是并不支持mobilenet的tensorflow模型,当时也看到了github上有人提交issue提到这个问题。


问题的issue参考这里:Unable to import mobilenet model using latest OpenCV.#9462。


有人在这里给出了一个解决方案:Layers for MobileNet from TensorFlow #9517。


解决方案里面最后一步:Modify for DNN: fuse batch normalizations and removeSqueezeop.需要用到一个工具:transform_graph。而这个工具需要用bazel编译......又回到了bazel......


三、柳暗花明


在没能力自己修复问题之前,只能等待大神解决。一个月期间,多次尝试bazel,包括windows环境和ubuntu环境,可能对这些工具不熟悉吧,总之没能成功解决。终于盼到十月份OpenCV3.3.1出来,果然对此有了更新。而且加载模型的API也有了变化,从原来的一个参数变成了两个参数。而且针对MobileNet还给出了一种解决方案。目前尚不能确定这种方案是否适用于其他模型,比如Inception等。


现在把这种方法记录如下,以备后用,以防遗忘,同时帮助同道中人。


  • 首先通过TensorFlow detection_model_zoo下载他们训练好的模型,或者用TesorFlow Object Detection API训练或者finetuning之后,由models-master\object_detection\export_inference_graph.py导出的模型文件frozen_inference_graph.pb。(利用object_detection_tutorial.ipynb的话,只是这一个文件就够了。)

  • 到https://github.com/opencv/opencv_extra/blob/master/testdata/dnn/ssd_mobilenet_v1_coco.pbtxt)下载ssd_mobilenet_v1_coco.pbtxt。然后把这个文件的第2222行修改为attr { key: "num_classes" value { i: 2 } }。其中这个2根据自己的需要改成目标数+1。比如我这里只有一类——人脸,所以我改为2。

  • 参考mobilenet_ssd_python.py,这个文件在这里https://github.com/opencv/opencv/blob/master/samples/dnn/mobilenet_ssd_python.py。

  • 还有一点,要用最新的OpenCV3.3.1,OpenCV3.3.0是不行的。


这里的例子mobilenet_ssd_python.py是Python的,我结合OpenCV给出的例子ssd_mobilenet_object_detection.cpp,修改了一个C++的版本,其实都差不多。例子很多,而且代码很相似,所以木有注释。如下:


 1#include<opencv2\opencv.hpp>
2#include<opencv2\dnn.hpp>
3#include <iostream>
4using namespace std;
5using namespace cv;
6const size_t inWidth = 300;
7const size_t inHeight = 300;
8const float WHRatio = inWidth / (float)inHeight;
9const char* classNames[] = { "background","face" };
10int main() {
11String weights = "face_frozen_inference_graph.pb";
12String prototxt = "ssd_mobilenet_v1_coco.pbtxt";
13dnn::Net net = cv::dnn::readNetFromTensorflow(weights, prototxt);
14Mat frame = cv::imread("image4.jpg");
15Size frame_size = frame.size();
16Size cropSize;
17if (frame_size.width / (float)frame_size.height > WHRatio)
18{
19cropSize = Size(static_cast<int>(frame_size.height * WHRatio),
20    frame_size.height);
21}
22else
23{
24cropSize = Size(frame_size.width,
25    static_cast<int>(frame_size.width / WHRatio));
26}
27Rect crop(Point((frame_size.width - cropSize.width) / 2,
28(frame_size.height - cropSize.height) / 2),
29cropSize);
30cv::Mat blob = cv::dnn::blobFromImage(frame,1./255,Size(300,300));
31//cout << "blob size: " << blob.size << endl;
32net.setInput(blob);
33Mat output = net.forward();
34//cout << "output size: " << output.size << endl;
35Mat detectionMat(output.size[2], output.size[3], CV_32F, output.ptr<float>());
36frame = frame(crop);
37float confidenceThreshold = 0.20;
38for (int i = 0; i < detectionMat.rows; i++)
39{
40float confidence = detectionMat.at<float>(i, 2);
41
42if (confidence > confidenceThreshold)
43{
44    size_t objectClass = (size_t)(detectionMat.at<float>(i, 1));
45
46    int xLeftBottom = static_cast<int>(detectionMat.at<float>(i, 3) * frame.cols);
47    int yLeftBottom = static_cast<int>(detectionMat.at<float>(i, 4) * frame.rows);
48    int xRightTop = static_cast<int>(detectionMat.at<float>(i, 5) * frame.cols);
49    int yRightTop = static_cast<int>(detectionMat.at<float>(i, 6) * frame.rows);
50
51    ostringstream ss;
52    ss << confidence;
53    String conf(ss.str());
54
55    Rect object((int)xLeftBottom, (int)yLeftBottom,
56        (int)(xRightTop - xLeftBottom),
57        (int)(yRightTop - yLeftBottom));
58
59    rectangle(frame, object, Scalar(02550),2);
60    String label = String(classNames[objectClass]) + ": " + conf;
61    int baseLine = 0;
62    Size labelSize = getTextSize(label, FONT_HERSHEY_SIMPLEX, 0.51, &baseLine);
63    rectangle(frame, Rect(Point(xLeftBottom, yLeftBottom - labelSize.height),
64        Size(labelSize.width, labelSize.height + baseLine)),
65        Scalar(02550), CV_FILLED);
66    putText(frame, label, Point(xLeftBottom, yLeftBottom),
67        FONT_HERSHEY_SIMPLEX, 0.5, Scalar(000));
68}
69}
70namedWindow("image", CV_WINDOW_NORMAL);
71imshow("image", frame);
72waitKey(0);
73return 0;
74}


最后的测试结果如下:


640?wx_fmt=jpeg

OpenCV dnn模块加载检测结果


四、路漫漫


对比两种方式的检测结果,我觉得还是tensorflow的方框更精确一点,而且后者的图片是裁剪过的。另外,两种结果的confidence不一样,估计是实现的方式不太一样。这一点还需要继续探究,今天先把方法记下来。同时欢迎大家指点,集思广益。


原文链接:https://www.jianshu.com/p/4f58029ceece


查阅更为简洁方便的分类文章以及最新的课程、产品信息,请移步至全新呈现的“LeadAI学院官网”:

www.leadai.org


请关注人工智能LeadAI公众号,查看更多专业文章

640?wx_fmt=jpeg

大家都在看

640.png?

LSTM模型在问答系统中的应用

基于TensorFlow的神经网络解决用户流失概览问题

最全常见算法工程师面试题目整理(一)

最全常见算法工程师面试题目整理(二)

TensorFlow从1到2 | 第三章 深度学习革命的开端:卷积神经网络

装饰器 | Python高级编程

今天不如来复习下Python基础

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值