NEON + OpenMP测试

在嵌入式的开发中,一直有在使用OpenMP和NEON加速,这次对二者的加速效果做了一个对比,包括二者的组合效果,因为只测试了加法的情况,其他的运行逻辑需要再实际使用中评估。

具体的测试代码如下:

#include <QCoreApplication>
#include <omp.h>
#include <arm_neon.h>
#include <QTime>
#include <QDebug>

int test(uint n)
{
    uint sum = 0;
    for(uint i=0;i<n;++i)
    {
        sum+=1;
    }
    return sum;
}

uint testNeon(uint n)
{
    uint sum = 0;
    uint array[10000];
    for(uint i=0;i<10000;i++)
    {
        array[i]=1;
    }
    uint32x4_t in1,in2;
    in1 = vld1q_u32(array);
    for(uint j=0;j<100;j++)
    {
        uint i=0;
        if(j==0)
            i=1;
        for(;i<(10000/4);++i)
        {
            uint * temp = (array+4*i);
            in2 = vld1q_u32(temp);
            in1 = vaddq_u32(in1,in2);
        }
    }
    sum = vaddvq_u32(in1);
    return sum;
}

int main(int argc, char *argv[])
{
    QCoreApplication a(argc, argv);

    uint n = 1000000,sum=0;

    qDebug("********NO ACC TEST********");
    QTime timer = QTime::currentTime();
    for(int i =0;i<1000;i++)
    {
        sum+=test(n);
    }
    qDebug("NO ACC TEST COST: %d ms, sum=%d",timer.msecsTo(QTime::currentTime()),sum);

    sum=0;
    qDebug("********OpenMP(2) TEST********");
    timer = QTime::currentTime();
    #pragma omp parallel for reduction(+:sum) num_threads(2)
    for(int i =0;i<1000;i++)
    {
        sum+=test(n);
    }
    qDebug("OpenMP(2) TEST COST: %d ms, sum=%d",timer.msecsTo(QTime::currentTime()),sum);

    sum=0;
    qDebug("********OpenMP(4) TEST********");
    timer = QTime::currentTime();
    #pragma omp parallel for reduction(+:sum) num_threads(4)
    for(int i =0;i<1000;i++)
    {
        sum+=test(n);
    }
    qDebug("OpenMP(4) TEST COST: %d ms, sum=%d",timer.msecsTo(QTime::currentTime()),sum);

    sum=0;
    qDebug("********NEON TEST********");
    timer = QTime::currentTime();
    for(int i =0;i<1000;i++)
    {
        sum+=testNeon(n);
    }
    qDebug("NEON TEST COST: %d ms, sum=%d",timer.msecsTo(QTime::currentTime()),sum);

    sum=0;
    qDebug("********NEON+OpenMP(2) TEST********");
    timer = QTime::currentTime();
    #pragma omp parallel for reduction(+:sum) num_threads(2)
    for(int i =0;i<1000;i++)
    {
        sum+=testNeon(n);
    }
    qDebug("NEON+openmp(2) COST: %d ms, sum=%d",timer.msecsTo(QTime::currentTime()),sum);

    sum=0;
    qDebug("********NEON+openmp(4) TEST********");
    timer = QTime::currentTime();
    #pragma omp parallel for reduction(+:sum) num_threads(4)
    for(int i =0;i<1000;i++)
    {
        sum+=testNeon(n);
    }
    qDebug("NEON+openmp(4) TEST COST: %d ms, sum=%d",timer.msecsTo(QTime::currentTime()),sum);

    return a.exec();
}

最终的运行结果如下:

********NO ACC TEST********
NO ACC TEST COST: 1171 ms, sum=1000000000
********OpenMP(2) TEST********
OpenMP(2) TEST COST: 560 ms, sum=1000000000
********OpenMP(4) TEST********
OpenMP(4) TEST COST: 437 ms, sum=1000000000
********NEON TEST********
NEON TEST COST: 489 ms, sum=1000000000
********NEON+OpenMP(2) TEST********
NEON+openmp(2) COST: 222 ms, sum=1000000000
********NEON+openmp(4) TEST********
NEON+openmp(4) TEST COST: 205 ms, sum=1000000000
测试结果

加速

方式

NOOpenMP(2)OpenMP(4)NEON

NEON +

OpenMP(2)

NEON +

OPENMP(4)

结果正确正确正确正确正确正确
时间1171560437489222205

可以看到同时使用两者的方式,加速效果最好,但是当OpenMP使用的核数增多时,加速效果降低。在并行计算量比较小的时候,有限使用NEON加速。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值