OpenCV4 | 如何让传统图像处理实现三十倍加速的顶级技能

最新推荐文章于 2024-06-04 11:29:51 发布

小白学视觉

最新推荐文章于 2024-06-04 11:29:51 发布

阅读量1.2k

点赞数 1

文章标签： python java opencv 人工智能编程语言

原文链接：https://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247591865&idx=2&sn=77fec23f7a19b55c969ee8d58fa8061e&chksm=fb548555cc230c43ae6f76b45a738147e8210c8d4cdf73fb636d581e7a42160f8724f0babb36&scene=126&&sessionid=0

版权

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

OpenCV4 + CUDA 从配置到代码.....

引子

一直有人在研习社问我，怎么去做OpenCV + CUDA的加速支持。其实网上用搜索引擎就可以找到一堆文章，但是其实你会发现，按照他们的做法基本都不会成功，原因是因为文章中使用的OpenCV版本太老旧、英伟达GPU的CUDA库也太久远。其实这个都不是主要原因，真实原因是OpenCV4跟之前的版本，编译CUDA的方法不一样了。所以感觉有必要自己写一遍，作为全网第一个OpenCV4 + CUDA + GPU编译与代码测试的教程给大家。希望大家都可以获得此技能，整个教程分为如下几个部分：

1. CUDA软件安装与配置

2. OpenCV+cmake编译CUDA模块支持

3. 代码实现与测试

4. 模块支持与应用场景

在开始教程之前，先说一下相关软件与版本信息

Windows 10 64bit

英伟达CUDA 10.0

OpenCV 4.1.0

OpenCV扩展模块4.1.0

GTX 1050 TI

VS2015 专业版

CMake 3.13.4

CUDA软件安装与配置

首先确保你有英伟达的独立显卡(GPU)，然后请到英伟达官方网站，在线检查与下载最新的显卡驱动版本。地址如下：

https://www.geforce.cn/drivers

安装/更新好驱动之后，就可以下载对应版本的CUDA工具包，下载地址如下：

https://developer.nvidia.com/cuda-toolkit
https://developer.nvidia.com/rdp/cudnn-download

下载好之后，就可以开始进行安装，只要默认安装即可。关于CUDA的安装与配置，更加详细的内容可以参考这里：

上面的文章中已经详细交代了。安装好之后我们就完成了第一步操作。

OpenCV+CMake编译

首先安装好CMake，下载地址如下：

www.cmake.org

其次需要下载OpenCV与OpenCV扩展模块的源代码，地址如下：

https://github.com/opencv/opencv/releases/download/4.1.0/opencv-4.1.0-vc14_vc15.exe
https://github.com/opencv/opencv_contrib/archive/4.1.0.zip

下载好之后解压缩到D盘指定目录即可。

打开CMake，设置好源码路径与编译输出路径之后，显示如下：

点击【configure】目标，弹出对话框选择如下：

然后点击【Finish】完成config之后，再点击【generate】按钮。

编译CUDA与扩展模块

完成上述操作之后，然后找到OPENCV_EXTRA_MODULE_PATH设置扩展模块的源代码路径。设置以后，在搜索框中输入CUDA，

WITH_CUDA
BUILD_CUDA_STUBS

上述两个选项打勾之后，再次点击【configure】按钮，完成之后，显示如下：

对CUDA_FAST_MATH选项打勾，然后执行【Generate】按钮。最终CMake的结果如下：

这个时候去cudabuild这里目录下，双击打开OpenCV.sln（VS2015工程文件），选择CMake_Targets -> ALL_BUILD，然后右键->生成，完成之后，再选择INSTALL右键生成。这个过程时间会比较久一点，估计会有一个小时到两个小时左右，跟电脑性能有关系。完成之后，你就会看到再cudabuild目录下多出一个install目录，这个就是我们编译得到支持CUDA版本的OpenCV。打开检查一下：

我的是今天早晨刚刚完成编译的。然后按照正常的OpenCV配置，配置好VS2015+OpenCV开发环境。如果还不知道怎么配置，看这里：

https://www.bilibili.com/video/av36486959

这里需要特别注意一点，我这里没有勾选生成opencv_world，主要是怕编译过程中有模块出错，会导致生产失败，所以就每个模块生成一个lib/dll的库。配置的lib链接器的时候，需要把下面的库文件全部加入：

opencv_aruco410d.lib

opencv_bgsegm410d.lib

opencv_bioinspired410d.lib

opencv_calib3d410d.lib

opencv_ccalib410d.lib

opencv_core410d.lib

opencv_cudaarithm410d.lib

opencv_cudabgsegm410d.lib

opencv_cudacodec410d.lib

opencv_cudafeatures2d410d.lib

opencv_cudafilters410d.lib

opencv_cudaimgproc410d.lib

opencv_cudalegacy410d.lib

opencv_cudaobjdetect410d.lib

opencv_cudaoptflow410d.lib

opencv_cudastereo410d.lib

opencv_cudawarping410d.lib

opencv_cudev410d.lib

opencv_datasets410d.lib

opencv_dnn410d.lib

opencv_dnn_objdetect410d.lib

opencv_dpm410d.lib

opencv_face410d.lib

opencv_features2d410d.lib

opencv_flann410d.lib

opencv_fuzzy410d.lib

opencv_gapi410d.lib

opencv_hfs410d.lib

opencv_highgui410d.lib

opencv_imgcodecs410d.lib

opencv_imgproc410d.lib

opencv_img_hash410d.lib

opencv_line_descriptor410d.lib

opencv_ml410d.lib

opencv_objdetect410d.lib

opencv_optflow410d.lib

opencv_phase_unwrapping410d.lib

opencv_photo410d.lib

opencv_plot410d.lib

opencv_quality410d.lib

opencv_reg410d.lib

opencv_rgbd410d.lib

opencv_saliency410d.lib

opencv_shape410d.lib

opencv_stereo410d.lib

opencv_stitching410d.lib

opencv_structured_light410d.lib

opencv_superres410d.lib

opencv_surface_matching410d.lib

opencv_text410d.lib

opencv_tracking410d.lib

opencv_video410d.lib

opencv_videoio410d.lib

opencv_videostab410d.lib

opencv_xfeatures2d410d.lib

opencv_ximgproc410d.lib

opencv_xobjdetect410d.lib

opencv_xphoto410d.lib

特别提醒，千万不要copy我的，因为也许你的版本不是OpenCV4.1.0，或者你的编译生成有模块失败，没有我这么多lib文件。这样我们就完成了CUDA编译支持。这里需要特别注意的，在VS2015编译阶段，必须先选择ALL_BUILD，切记！

OpenCV代码测试与运行

OpenCV4支持CUDA运行的模块，主要包括 图像处理、视频读写、视频分析、传统的对象检测包括HOG、级联检测器、特征提取部分、卷积滤波与图像二值分析、图像分割模块。这里我在OpenCV提供的示例代码基础上稍加改动，实现了一个基于背景分割的视频分析程序:

#include <iostream>
#include <string>

#include "opencv2/core.hpp"
#include "opencv2/core/utility.hpp"
#include "opencv2/cudabgsegm.hpp"
#include "opencv2/video.hpp"
#include "opencv2/highgui.hpp"

using namespace std;
using namespace cv;
using namespace cv::cuda;

enum Method
{
    MOG,
    MOG2,
};

int main(int argc, const char** argv)
{
    Method m = MOG;

    int count = cuda::getCudaEnabledDeviceCount();
    printf("GPU Device Count : %d \n", count);

    VideoCapture cap;
    cap.open("D:/images/video/example_dsh.mp4");

    Mat frame;
    cap >> frame;

    GpuMat d_frame(frame);

    Ptr<BackgroundSubtractor> mog = cuda::createBackgroundSubtractorMOG();
    Ptr<BackgroundSubtractor> mog2 = cuda::createBackgroundSubtractorMOG2();

    GpuMat d_fgmask;
    GpuMat d_fgimg;
    GpuMat d_bgimg;

    Mat fgmask;
    Mat fgimg;
    Mat bgimg;

    switch (m)
    {
    case MOG:
        mog->apply(d_frame, d_fgmask, 0.01);
        break;

    case MOG2:
        mog2->apply(d_frame, d_fgmask);
        break;
    }

    namedWindow("image", WINDOW_AUTOSIZE);
    namedWindow("foreground mask", WINDOW_AUTOSIZE);
    namedWindow("foreground image", WINDOW_AUTOSIZE);
    namedWindow("mean background image", WINDOW_AUTOSIZE);

    for (;;)
    {
        cap >> frame;
        if (frame.empty())
            break;
        int64 start = cv::getTickCount();
        d_frame.upload(frame);


        //update the model
        switch (m)
        {
        case MOG:
            mog->apply(d_frame, d_fgmask, 0.01);
            mog->getBackgroundImage(d_bgimg);
            break;

        case MOG2:
            mog2->apply(d_frame, d_fgmask);
            mog2->getBackgroundImage(d_bgimg);
            break;
        }


        d_fgimg.create(d_frame.size(), d_frame.type());
        d_fgimg.setTo(Scalar::all(0));
        d_frame.copyTo(d_fgimg, d_fgmask);

        d_fgmask.download(fgmask);
        d_fgimg.download(fgimg);
        if (!d_bgimg.empty())
            d_bgimg.download(bgimg);

        imshow("foreground mask", fgmask);
        imshow("foreground image", fgimg);
        if (!bgimg.empty())
            imshow("mean background image", bgimg);

        double fps = cv::getTickFrequency() / (cv::getTickCount() - start);
        // std::cout << "FPS : " << fps << std::endl;
        putText(frame, format("FPS : %.2f", fps), Point(50, 50), FONT_HERSHEY_SIMPLEX, 1.0, Scalar(0, 0, 255), 2, 8);

        imshow("image", frame);
        char key = (char)waitKey(1);
        if (key == 27)
            break;
    }

    return 0;
}

在我的电脑上基于1080P的视频文件

CPU版本的运行是大概在2FPS
GPU版本CUDA加速运行大概在 80 FPS

怎么说，完全是碾压式的速度优势。看来以后视频处理必须CUDA版本才过瘾。来自官方的更多加速比较图示如下：

测试1920x1080大小的视频文件，处理帧率如下：

可以说完全实时无压力！

模块支持与应用场景

既然CUDA加速这么厉害，为什么OpenCV在正式的release中却没有包含呢？本人觉得OpenCV正式的官方Release版本主要是考虑普适性的问题。另外OpenCV在3.x到4.x升级的时候把CUDA支持从release移到扩展模块中去了，官方也没有解释为什么，我个人感觉更多的是出于商业考虑。

此外OpenCV中DNN模块已经支持OpenVINO加速执行与NCS2加速、所以OpenCV DNN模块不支持英伟达显卡加速支持，支持的模块大部分是以前的传统图像处理、对象检测、特征匹配、双目、图像拼接部分，其实这些对我们已经十分有用，大大扩展了OpenCV的应用场景、另外千万不要随便使用CUDA加速，有些简单的算法，OpenCV已经做的很好了，加速的效果并不明显，不信可以看下面的这个例子：

有点是车祸现场，原因很好解释。这个是因为OpenCV中使用CUDA需要把Mat对象数据上传到CUDA支持单元，完成处理以后再下载到Mat对象上，对一些简单的图像处理，这个操作很容易成为性能瓶颈，从而降低了加速效应。

小白团队出品：零基础精通语义分割↓↓↓

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。


下载3：OpenCV实战项目20讲
在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

小白学视觉

关注

1
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
OpenCV4 | 如何让传统图像处理实现三十倍加速的顶级技能

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达OpenCV4 + CUDA从配置到代码.....引子一直有人在研习社问我，怎么去做OpenCV + CUDA的加速支持。其实网上用搜索引擎就可以找到一堆文章，但是其实你会发现，按照他们的做法基本都不会成功，原因是因为文章中使用的OpenCV版本太老旧、英伟达GPU的CUDA库也太久远。其实这个都不是...
复制链接

扫一扫