Armv8上不弃不离的NEON／FPU

最新推荐文章于 2024-01-09 11:01:18 发布

hbcbgcx

最新推荐文章于 2024-01-09 11:01:18 发布

阅读量3.8k

点赞数

分类专栏： arm

arm 专栏收录该内容

6 篇文章

订阅专栏

https://www.jianshu.com/p/a19cc2ca59da

熟悉arm processor的朋友应该知道arm的Cortex-A是带有FPU和NEON的，FPU用来做浮点数运算的，而NEON是SIMD指令做并行运算的。在现有Cortex-A的设计里，NEON和FPU是不可分的，也就是不能单独只有NEON或是FPU。在比较高性能的Cortex-A CPU（比如Cortex-A15/A57/A72/A73/A75)中，NEON和FPU是不能在RTL配置里去掉的，在高能效的Cortex－A的CPU（比如Cortex-A7/A53/A55)中NEON和FPU是可以在RTL配置里面配置有或是没有。

NEON和FPU毕竟是占面积的，也许你会认为你的应用可能用不到NEON或是FPU，所以你可以配置RTL没有NEON／FPU，以减少面积die size或功耗。

这在Armv7里可能不是问题，但是在armv8 64位里需要非常小心，也许因为这个配置导致你的芯片称为无用的废片，有些客户因此遭受损失，虽然我们已经尽可能地告知客户们。

问题描述

在 armv8 aarch64中，arm规定了过程调用规范Procedure Call Standard for the ARM 64-bit Architecture’–AAPCS64，这个规范时规定在函数调用过程中怎么传输入和输出参数，哪些寄存器需要调用者保护，哪些寄存器需要被调用者保护。之所以要定义这个规范就是要使不同的compiler (arm compiler, gcc, llvm)生成的库能兼容地被使用，能被链接器链接起来生成一个可执行文件或是库。这保证了arm生态的软件兼容，非常重要。

和我们这次要讨论的话题相关的是怎么来传浮点数的函数输入输出参数。

在Armv7的AAPCS32规范里，我们实际上定义了两种传浮点数的方式：

softfp

hardfp

这两个的区别在于，softfp 是用整形的通用寄存器（r0-r3)来传浮点数参数的，比如

float fadd(float a, float b)

a和b实际上是通过r0,r1传入到被调函数的，结果也是通过r0传出的。

但如果使用hardfp,那么用浮点数寄存器来传参数，以上同样的例子，a和b是通过s0, s1寄存器来传的，结果是通过s0传出的。

在GCC compiler里提供了一下选项来选择你编译的代码是使用哪个方式

-mfloat-abi=softfp/hard

因为使用不同的参数传递方式，所以你不能将一个使用softfp另外一个使用hardfp的库或目标文件链接起来。

正式因为如此，在armv7的时候有些编译好的库（比如glibc使用softfp)没法在使用另一种(使用hardfp)的应用编译中。