ARM Cortex-A9 NEON性能初步测试

最新推荐文章于 2023-07-24 15:21:27 发布

WaveRider2012

最新推荐文章于 2023-07-24 15:21:27 发布

阅读量4.6k

点赞数

分类专栏： ARM架构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/waverider2012/article/details/8528978

版权

本文介绍了在ZC702平台上对ARM Cortex-A9处理器的NEON单元进行的性能测试。测试重点是VMLA指令在不同情况下的效率，探讨了实际性能与理论性能的差距，并提到了数据对齐对性能的影响。测试结果显示，虽然理论上每个CPU周期可完成2次浮点乘加运算，但实际应用中VLD和VST等指令降低了性能。此外，还讨论了将VMLA指令应用于int32运算时的表现，与MPE手册的预期更相符。

摘要由CSDN通过智能技术生成

最近在ZC702上对ARM Cortex-A9的NEON性能做了些测试。

测试代码如下：

        .balign  4
        .global neon_best_pipelne
        .arm
neon_best_pipelne:
        .rept 10000
        vmla.f32 q10, q0, q5
        vmla.f32 q11, q1, q6
        vmla.f32 q12, q2, q7
        vmla.f32 q13, q3, q8
        vmla.f32 q14, q4, q9
        .endr
        BX lr

时间用Private Timer来度量，Private Timer的clock为CPU clock的一半，可以很精确的统计算法使用的时间。

VLD和VST访问的数据最好是8字节对齐：DATATYPE vec1[SIZE] __attribute__((aligned(8)));

FLOAT的测试结果如下：

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

WaveRider2012 CSDN认证博客专家 CSDN认证企业博客

码龄12年

14: 原创

32万+: 周排名

111万+: 总排名

10万+: 访问

: 等级

1214: 积分

12: 粉丝

13: 获赞

7: 评论

60: 收藏

私信

关注

热门文章

分类专栏

最新评论

通过PLD指令提升软件性能
elimuzi 回复恰同学少年_mengmo: 我也是，你解决了吗？
通过PLD指令提升软件性能
恰同学少年_mengmo: Error: unknown mnemonic `pld' -- `pld [x0,#128]'我在arm平台有这个报错怎么解决
ZC702开发板简介
修w: 有原理图吗？
Linux下的hrtimer高精度定时器
yyyyyyyuande: “如果在my_hrtimer_callback()里面直接返回HRTIMER_RESTART会导致立即重新进入my_hrtimer_callback()。这时shell对输入没有任何响应。” 没有响应可能是处理有误。记得返回HRTIMER_RESTART前需要设置时间，例如 hrtimer_forward_now(&timer, ktime_set(0, 1000)); 等等。
Xilinx SDK中指定变量的物理位置
网布: 之前准备在FSBL加入一个数组，但是老是提示太大，我看lscript.ld中吧所有字段都定义到ps7_ram_0_S_AXI_BASEADDR中了，所有按照你的做法做了之后编译可以通过了，其他的没有更改。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。