SIMD——请不要妄图优化opencv的函数

最新推荐文章于 2024-07-09 11:48:36 发布

南陵花神

最新推荐文章于 2024-07-09 11:48:36 发布

阅读量430

点赞数 1

文章标签：计算机视觉

本文链接：https://blog.csdn.net/cpu077/article/details/125452013

版权

大纲

ORB-SLAM特征提取之SIMD优化

ORB-SLAM特征提取之SIMD优化

一、优化手段

1、NEON

NEON是基于ARM架构的一种128位的SIMD(Single Instruction, Multiple Data,单指令、多数据)的拓展结构，具体的细节在这里不做过多的介绍，我们来讨论NEON在实际工程中的两种使用方式：

（1）汇编

相信学习过单片机的朋友对汇编语言一定都是又恨又怕，复杂的指令与奇怪的逻辑令人望而却步，我们来看一小段基于汇编的NEON指令：

 "vld1.8       {d8,d9}, [%[in0]]\n\t"
        "add          %[in0], %[step]\n\t"
        "vld1.8       {d10,d11}, [%[in1]]\n\t"
        "add          %[in1], %[step]\n\t"
        "vld1.8       {d12,d13}, [%[in0]]\n\t"
        "add          %[in0], %[step]\n\t"
        "vld1.8       {d14,d15}, [%[in1]]\n\t"

什么东西？这是什么东西！说实话，我也看不太懂，所以基于汇编的NEON指令难度大，可移植性差，但是由于汇编语言的特性，决定了它具有很高的效率。Anyway，我们来看下一种方式。

（2）使用arm提供的Intrinsics函数
可以认为是内联函数，但是在编译时编译器会将函数转化为neon指令。调用该函数需要包含头文件arm_neon.h，该头文件包含了neon各种操作函数。当然，我在这里同样来展示一段代码：

 for(; j < img.cols - 16 - 3; j += 16, ptr += 16)
            {
                uint8x16_t m0,m1;
                uint8x16_t v0 = vld1q_u8((const uint8_t*)ptr);
                uint8x16_t v1 = vqsubq_u8(v0,t);
                v0 = vqaddq_u8(v0,t);

了解过NEON的同学这段代码应该不难看懂，就是简单的加减法，我们可以看到，这种内联方式的NEON代码指令难度低，可移植行也就比汇编形式的高很多。

2、SSE

SSE是Intel x86架构CPU的SIMD指令的简称，与NEON一样具有汇编和内联函数两种形式。

二、cv::gaussianblur函数优化

由于本次实验的电脑是intel的CPU，所以采用SSE优化的方式对高斯模糊函数进行优化，在优化之前，记录了cv::gaussianblur函数的效率如下图所示：在这里插入图片描述 9.41ms，在我的认知领域内，应该不是具有很高效率的时常，所以我对该函数进行了SSE优化，对gaussainblur函数的源码进行了修改，执行时间如下：惊人的148ms。当然，如果你需要的源码，可以私信我，我发给你自己run一下。总的来说，这并不是一次非常愉快的优化过程，同样的，接下来的SSE优化也令我大跌眼镜。

三、cv::FAST函数优化

FAST提取图像中的特征点是ORB-SLAM系列中使用的一种方法，具体原理不再赘述，因为这毕竟不是一篇介绍SLAM算法的blog，我们来看opencv实现的FAST函数耗时如何：在这里插入图片描述
结果是2.65ms，不得不说opencv优化的已经很好了。注意！！！这里使用了和ORBSLAM2中相同的阈值：20。在ORBSLAM2中该函数在网格的循环遍历中被调用，ORBSLAM2将图像分为30x30个网格，在每个网格中进行FAST角点检测，经过测量，每个网格中耗时约为0.02ms,为什么差异这么大呢，首先于ORBSLAM中独特的网格划分有关系，其次与图像的大小也有关系。接下来，我们来看我进行了SSE优化的代码，相关代码已经有NEON实现，你需要做的只是将NEON转化为SSE即可：在这里插入图片描述 50ms。。唉，当我看到这个结果的时候，心里有一种说不出的酸楚…

四、原因分析

实验失败不可怕，可怕的是不分析为什么失败，经过资料的查询与文献的阅读我大概的掌握了其中的奥义。

（1）OpenCV的函数自带SIMD加速，无论是gaussainblur还是FAST都自带了SMID的并行加速，并且OpenCV代码结构和顺序更加合理，能够更好的发挥CPU的全部性能
（2）OpenCV的优化是按照运行环境中CPU的架构来决定的，我们知道到INTEL的SIMD指令集avx512是高于SSE的，由于我运行的环境中支持avx512，所以使用该指令集的优化代码效率必然高于SSE。
（3）最终的建议是：别动OpenCV的源码为好，除非用汇编…，这得是神人来写了。