ARM Cortex-A9 NEON性能初步测试

本文介绍了在ZC702平台上对ARM Cortex-A9处理器的NEON单元进行的性能测试。测试重点是VMLA指令在不同情况下的效率,探讨了实际性能与理论性能的差距,并提到了数据对齐对性能的影响。测试结果显示,虽然理论上每个CPU周期可完成2次浮点乘加运算,但实际应用中VLD和VST等指令降低了性能。此外,还讨论了将VMLA指令应用于int32运算时的表现,与MPE手册的预期更相符。
摘要由CSDN通过智能技术生成

最近在ZC702上对ARM Cortex-A9的NEON性能做了些测试。

测试代码如下:

        .balign  4
        .global neon_best_pipelne
        .arm
neon_best_pipelne:
        .rept 10000
        vmla.f32 q10, q0, q5
        vmla.f32 q11, q1, q6
        vmla.f32 q12, q2, q7
        vmla.f32 q13, q3, q8
        vmla.f32 q14, q4, q9
        .endr
        BX lr
时间用Private Timer来度量,Private Timer的clock为CPU clock的一半,可以很精确的统计算法使用的时间。

VLD和VST访问的数据最好是8字节对齐:DATATYPE vec1[SIZE] __attribute__((aligned(8)));


FLOAT的测试结果如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值