在嵌入式的开发中,一直有在使用OpenMP和NEON加速,这次对二者的加速效果做了一个对比,包括二者的组合效果,因为只测试了加法的情况,其他的运行逻辑需要再实际使用中评估。
具体的测试代码如下:
#include <QCoreApplication>
#include <omp.h>
#include <arm_neon.h>
#include <QTime>
#include <QDebug>
int test(uint n)
{
uint sum = 0;
for(uint i=0;i<n;++i)
{
sum+=1;
}
return sum;
}
uint testNeon(uint n)
{
uint sum = 0;
uint array[10000];
for(uint i=0;i<10000;i++)
{
array[i]=1;
}
uint32x4_t in1,in2;
in1 = vld1q_u32(array);
for(uint j=0;j<100;j++)
{
uint i=0;
if(j==0)
i=1;
for(;i<(10000/4);++i)
{
uint * temp = (array+4*i);
in2 = vld1q_u32(temp);
in1 = vaddq_u32(in1,in2);
}
}
sum = vaddvq_u32(in1);
return sum;
}
int main(int argc, char *argv[])
{
QCoreApplication a(argc, argv);
uint n = 1000000,sum=0;
qDebug("********NO ACC TEST********");
QTime timer = QTime::currentTime();
for(int i =0;i<1000;i++)
{
sum+=test(n);
}
qDebug("NO ACC TEST COST: %d ms, sum=%d",timer.msecsTo(QTime::currentTime()),sum);
sum=0;
qDebug("********OpenMP(2) TEST********");
timer = QTime::currentTime();
#pragma omp parallel for reduction(+:sum) num_threads(2)
for(int i =0;i<1000;i++)
{
sum+=test(n);
}
qDebug("OpenMP(2) TEST COST: %d ms, sum=%d",timer.msecsTo(QTime::currentTime()),sum);
sum=0;
qDebug("********OpenMP(4) TEST********");
timer = QTime::currentTime();
#pragma omp parallel for reduction(+:sum) num_threads(4)
for(int i =0;i<1000;i++)
{
sum+=test(n);
}
qDebug("OpenMP(4) TEST COST: %d ms, sum=%d",timer.msecsTo(QTime::currentTime()),sum);
sum=0;
qDebug("********NEON TEST********");
timer = QTime::currentTime();
for(int i =0;i<1000;i++)
{
sum+=testNeon(n);
}
qDebug("NEON TEST COST: %d ms, sum=%d",timer.msecsTo(QTime::currentTime()),sum);
sum=0;
qDebug("********NEON+OpenMP(2) TEST********");
timer = QTime::currentTime();
#pragma omp parallel for reduction(+:sum) num_threads(2)
for(int i =0;i<1000;i++)
{
sum+=testNeon(n);
}
qDebug("NEON+openmp(2) COST: %d ms, sum=%d",timer.msecsTo(QTime::currentTime()),sum);
sum=0;
qDebug("********NEON+openmp(4) TEST********");
timer = QTime::currentTime();
#pragma omp parallel for reduction(+:sum) num_threads(4)
for(int i =0;i<1000;i++)
{
sum+=testNeon(n);
}
qDebug("NEON+openmp(4) TEST COST: %d ms, sum=%d",timer.msecsTo(QTime::currentTime()),sum);
return a.exec();
}
最终的运行结果如下:
********NO ACC TEST********
NO ACC TEST COST: 1171 ms, sum=1000000000
********OpenMP(2) TEST********
OpenMP(2) TEST COST: 560 ms, sum=1000000000
********OpenMP(4) TEST********
OpenMP(4) TEST COST: 437 ms, sum=1000000000
********NEON TEST********
NEON TEST COST: 489 ms, sum=1000000000
********NEON+OpenMP(2) TEST********
NEON+openmp(2) COST: 222 ms, sum=1000000000
********NEON+openmp(4) TEST********
NEON+openmp(4) TEST COST: 205 ms, sum=1000000000
加速 方式 | NO | OpenMP(2) | OpenMP(4) | NEON | NEON + OpenMP(2) | NEON + OPENMP(4) |
结果 | 正确 | 正确 | 正确 | 正确 | 正确 | 正确 |
时间 | 1171 | 560 | 437 | 489 | 222 | 205 |
可以看到同时使用两者的方式,加速效果最好,但是当OpenMP使用的核数增多时,加速效果降低。在并行计算量比较小的时候,有限使用NEON加速。