C++使用OpenMP和AVX2优化图像中卷积算法

最新推荐文章于 2023-08-23 14:48:26 发布

InfiniteChaos

最新推荐文章于 2023-08-23 14:48:26 发布

阅读量194

点赞数

分类专栏： AVX优化 OpenCv 编程记录文章标签： c++ 算法开发语言

本文链接：https://blog.csdn.net/qq_39969166/article/details/132181442

版权

编程记录同时被 3 个专栏收录

10 篇文章 0 订阅

订阅专栏

OpenCv

5 篇文章 2 订阅

订阅专栏

AVX优化

4 篇文章 1 订阅

订阅专栏

这里不做padding处理所以出来的图像尺寸为
size-kernelsize+1
懒的多说
上才艺~~
恐龙抗狼


/// \brief convolution
/// \param input  chw格式
/// \param kernel chw格式
/// \param outPtr 单通道hw
/// \param cols   输入图像宽度
/// \param rows   输入图像高度
/// \param kRow    卷积核高
/// \param kCol    卷积核宽
/// \param kChannel 卷积核通道数
///
void convolution5(float *input,float *kernel,float *&outPtr,int cols,int rows,int kRow,int kCol,int kChannel){


    uint32_t out_rows = 1 + (rows) - (kRow);
    uint32_t out_cols = 1 + (cols) - (kCol);
    uint32_t out_size = out_rows * out_cols;

    outPtr=new float[out_size];

    memset(outPtr,0,sizeof(float)*out_size);

    int blocks=out_cols/8;
    int totalSize=blocks*8;
    float *aPtr=input;
#pragma omp parallel for
    for (int r = 0; r < out_rows; r++) {
        float *outBuffer=outPtr+r*out_cols;

        for(int ch=0;ch<kChannel;ch++){
            float *tempKernel=kernel+ch*kRow*kCol;
            float *a1Ptr=aPtr+ch*cols*rows;
            for (int kr = 0; kr < kRow; kr++) {
                int kRIndex = kr * kCol;
                int rIndex = (r + kr) * cols;
                float *a2Ptr=a1Ptr+rIndex;
                for (int kc = 0; kc < kCol; kc++) {
                    int kRCIndex = kRIndex + kc;
                    const float tempCof=tempKernel[kRCIndex];
                    float *a3Ptr=a2Ptr+kc;

                    __m256 cof=_mm256_set1_ps(tempCof);
                    for(int c=0;c<totalSize;c+=8){
                        __m256 srcValue=_mm256_load_ps(a3Ptr+c);
                        __m256 dstValue=_mm256_load_ps(outBuffer+c);
                        _mm256_store_ps(outBuffer+c,_mm256_fmadd_ps(srcValue,cof,dstValue));
                    }

                    for(int c=totalSize;c<out_cols;c++){
                        outBuffer[c]+=a3Ptr[c]*tempCof;
                    }

                }
            }
        }

    }

}