使用NEON内联函数进行编程

神一样的老师

于 2024-08-08 10:46:15 发布

阅读量26

点赞数 1

文章标签： c语言汇编

本文链接：https://blog.csdn.net/bit_mike/article/details/141001556

版权

直接用汇编语言编写最优的NEON代码，或使用内联函数接口，需要对使用的数据类型以及可用的NEON指令有深入的理解。要知道使用哪些NEON操作，看看如何将算法分解为并行操作是有用的。例如，加法、最小值和最大值等可交换操作从SIMD的角度来看特别容易。例如，要添加数组中的八个数字：

unsigned int acc=0;
for (i=0; i<8;i+=1)
{
    acc+=array[i]; // a + b + c + d + e + f + g + h
}

可以利用加法的结合性质将循环展开为多个加法（(a + e) + (b + f)) + ((c + g) + (d + h))：

unsigned int acc2=0; 
unsigned int acc3=0; 
unsigned int acc4=0; 
for (i=0; i<8;i+=4)
{
    acc1+=array[i]; // (a, e)
    acc2+=array[i+1]; // (b, f)
    acc3+=array[i+2]; // (c, g)
    acc4+=array[i+3]; // (d, h)
}
acc1+=acc2; // (a + e) + (b + f)
acc3+=acc4; // (c + g) + (d + h)
acc1+=acc3; // ((a + e) + (b + f))+((c + g) + (d + h))

上述代码显示，可以使用一个包含四个32位值的向量作为累加器和临时寄存器。这假设数组元素的总和适合32位通道。然后可以使用SIMD指令进行操作。扩展代码适用于四的任何倍数：

#include <arm_neon.h>
uint32_t vector_add_of_n(uint32_t* ptr, uint32_t items)
{
    uint32_t result,* i;
    uint32x2_t vec64a, vec64b;
    uint32x4_t vec128 = vdupq_n_u32(0); // 清除累加器
    for (i=ptr; i<(ptr+(items/4));i+=4)
    {
        uint32x4_t temp128 = vld1q_u32(i); // 加载四个32位值
        vec128=vaddq_u32(vec128, temp128); // 进行128位向量加法
    }
    vec64a = vget_low_u32(vec128); // 将128位向量分解
    vec64b = vget_high_u32(vec128); // 为两个64位向量
    vec64a = vadd_u32 (vec64a, vec64b); // 将64位向量相加
    result = vget_lane_u32(vec64a, 0); // 提取通道并
    result += vget_lane_u32(vec64a, 1); // 将标量相加
    return result;
}

vget_high_u32和vget_low_u32不对应任何NEON指令。这些内联函数指示编译器引用输入Q寄存器中的上D寄存器或下D寄存器。因此，这些操作不会转换为实际代码，但它们影响用于存储vec64a和vec64b的寄存器。根据编译器的版本、目标处理器和优化选项，生成的代码变为：

vector_add_of_n PROC
VMOV.I8 q0,#0
BIC r1,r1,#3
ADD r1,r1,r0
CMP r1,r0
BLS |L1.36|
|L1.20|
VLD1.32 {d2,d3},[r0]!
VADD.I32 q0,q0,q1
CMP r1,r0
BHI |L1.20|
|L1.36|
VADD.I32 d0,d0,d1
VMOV.32 r1,d0[1]
VMOV.32 r0,d0[0]
ADD r0,r0,r1
BX lr
ENDP

神一样的老师

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用NEON内联函数进行编程

直接用汇编语言编写最优的NEON代码，或使用内联函数接口，需要对使用的数据类型以及可用的NEON指令有深入的理解。要知道使用哪些NEON操作，看看如何将算法分解为并行操作是有用的。例如，加法、最小值和最大值等可交换操作从SIMD的角度来看特别容易。这些内联函数指示编译器引用输入Q寄存器中的上D寄存器或下D寄存器。因此，这些操作不会转换为实际代码，但它们影响用于存储vec64a和vec64b的寄存器。上述代码显示，可以使用一个包含四个32位值的向量作为累加器和临时寄存器。这假设数组元素的总和适合32位通道。
复制链接

扫一扫