如何在aarch64平台上使用硬浮点及NEON功能

一. 如何知道C程序是否使用了硬件浮点

1.1 确认CPU是否支持硬件浮点单元

在这里插入图片描述

1.2 编译软件程序时确认汇编指令中是否用到了浮点指令

在armv7架构的编译器版本中,可以通过-mfpu给gcc编译器,指定是否启动硬件FPU
但是,在armv8架构的GCC编译器中,已经去掉了 -mfpu 选项,默认就会支持硬件浮点:
在这里插入图片描述

1.3 写一个测试程序如下:

int find_max(int8_t *x,float *y)
{
    int8_t temp = 0;
    int index = 0;

    for(int i = 0; i < 3; i++)
    {
       if(temp < x[i])
        {
            temp = x[i];
            index = i;
        }
    }

    y[0] = (int8_t)temp / 279.6582031;
    y[0] *= 51.0023;

    return index;
}

1.4 反汇编如下:

在这里插入图片描述

从上述反汇编代码中,可以看出,确实会用到如下浮点相关的汇编指令,那么,这个可执行程序,在目标平台上如果可以运行,就能证明硬件浮点单元肯定是已经用上了,因为会用到典型的浮点指令,比如 scvtt,fdiv, fmul等指令:

  • scvtf d0, w0 //将w0中存的32位整数转成64位浮点数存到d0中
  • fdiv d0, d0, d1 //d0, d1中存的两个64位浮点相除,结果再存到d0中
  • fcvt s0, d0 //将64位浮点d0转成32位浮点数s0,d0是q0的低64位,s0为d0的低32位
  • fmul d0, d0, d1 //两个64位浮点数d0, d1相乘,结果再存到d0中

1.5 关于armv8的寄存器,主要2类:

1.5.1 一类是通用寄存器:

X0 - X31: 64位通用寄存器
W0 - W31:32位通用寄存器

1.5.2 另一类是向量寄存器,在浮点或者NEON指令中会用到:

Q0- Q31: 128位向量寄存器
D0 - D31: 64位向量寄存器
S0 - S31: 32位向量寄存器
H0 - H31: 16位向量寄存器
B0 - B31: 8位向量寄存器

二. 如何在C程序中使用neon

2.1 写一个测试程序 test_neon.c

#include <stdio.h>
#include <stdint.h>
#include <unistd.h>
#include <math.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <sys/mman.h>
#include <string.h>
#include <errno.h>
#include <sys/time.h>

#include "arm_neon.h"   //一定要包含这个头文件

#define ELEMENT_NUM (2535*80)

static void test_float_div_normal(uint8_t *ptr, int len)
{
    float output_buf11[len];
    for(int i = 0; i < len; i++)
    {
        output_buf11[i] = (uint8_t) ptr[i] / 257.600123;
    }
}

static void test_float_div_f32x4(uint8_t *ptr, int len)
{
    float32_t output_buf11[len];
    float32x4_t scale_float32x4 = vdupq_n_f32(279.6582031);
    float32x4_t scores_float32x4;
    float32x4_t result_float32x4;
    uint32x4_t tmp_uint32;

    for(int k = 0; k < len; k+=4)
    {
        tmp_uint32[0] = (uint32_t)ptr[k];
        tmp_uint32[1] = (uint32_t)ptr[k+1];
        tmp_uint32[2] = (uint32_t)ptr[k+2];
        tmp_uint32[3] = (uint32_t)ptr[k+3];
        scores_float32x4 = vcvtq_f32_u32(tmp_uint32);
        result_float32x4 = vdivq_f32(scores_float32x4, scale_float32x4);
        vst1q_f32(output_buf11 + k, result_float32x4);
    }
}

int main(void)
{
    int len = ELEMENT_NUM;
    uint8_t input_arr[len];
    for(int i = 0; i < len; i++) {
        input_arr[i] = 0x5A + i;
    }

    printf("Time:[%ld] [TEST INFO] test_float_div_normal begin...\r\n", get_time_ms());
    test_float_div_normal(input_arr, len);
    printf("Time:[%ld] [TEST INFO] test_float_div_normal end.\r\n", get_time_ms());
    
    printf("Time:[%ld] [TEST INFO] test_float_div_f32x4 begin...\r\n", get_time_ms());
    test_float_div_f32x4(input_arr, len);
    printf("Time:[%ld] [TEST INFO] test_float_div_f32x4 end.\r\n", get_time_ms());

    return 0;
 }

2.2 编译程序

aarch64-linux-musl-gcc -O1 test_neon.c -o test_neon

2.3 运行程序

编译后,在一个只有 50M 时钟的 FPGA上面的Cortex-A35上面运行,可以看出:
test_float_div_normal 耗时为 250 ms
test_float_div_f32x4 耗时为 62 ms

这说明:neon一次操作4个浮点除法,确实可以使速度提升4倍左右。

2.4 neon_intrinsics参考文档

https://arm-software.github.io/acle/neon_intrinsics/advsimd.html

  • 10
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值