![](https://img-blog.csdnimg.cn/20190918140213434.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
3.3.4 《Arm A715软件优化指南》
文章平均质量分 75
https://download.csdn.net/download/u012906122/89474646
vimer-hz
书是越读越薄的
展开
-
4 Special considerations
在实际优化中,需要综合考虑寄存器的可用性和数据传输的开销,以在GPR寄存器和VPR寄存器之间实现最佳的数据迁移策略。除了上表中提到的区域之外,INT1和FP1区域中的所有指令都可以快速转发到FP/ASIMD/SVE存储以及FP/ASIMD向整数寄存器传输,ASIMD写入通用寄存器的转换指令和第3.19部分中的PERM指令(参见注释2)。分支指令和分支目标指令的对齐和密度会影响性能。为了获得最佳性能,应将已经发生的分支放置在对齐的32字节指令内存区域的末尾,并且最好将分支目标指向对齐的32字节指令的开头。翻译 2023-07-31 22:27:31 · 148 阅读 · 0 评论 -
3 Instruction characteristics
一系列表格总结了有效的执行延迟和吞吐量(每个周期的指令带宽),所使用的流水线以及与每组指令相关的特殊行为。2. 乘累加流水线支持从类似的µOP中延迟转发累加操作数,允许典型的乘累加µOP序列每N个周期发布一个(累加延迟N以括号表示)。1. 执行这些指令的SVE流水线支持从相似µOP中延迟转发累加操作数,允许一个典型的µOP序列每N个周期发出一个(累加延迟N显示在括号中)。1. SVE累加流水线支持从相似µOP中延迟转发累加操作数,允许一个典型的这样的µOP序列每N个周期发出一个(累加延迟N显示在括号中)。翻译 2023-07-31 21:39:13 · 160 阅读 · 0 评论 -
2 Overview
Armv9.0-A架构是在Arm®v8-A架构基础上扩展的,延伸到了Arm®v8.5-A。• 可选择的错误保护,可以在L1指令和数据缓存、L2缓存和L2转换后备缓冲器(TLB)上进行奇偶校验或错误纠正码(ECC),实现单错误纠正和双错误检测(SECDED)。• 实现了具有128位矢量长度的可伸缩矢量扩展(SVE)和可伸缩矢量扩展2(SVE2)。• 嵌入式跟踪宏单元(ETM),支持嵌入式跟踪扩展(ETE)。• 40位物理地址(PA)和48位虚拟地址(VA)。• 实现了可靠性、可用性和可维护性(RAS)扩展。翻译 2023-07-31 21:24:29 · 65 阅读 · 0 评论 -
1 Introduction
这份文档旨在帮助系统设计师、系统集成商和程序员理解和优化Cortex-A715核心的软件,以确保在不需要深入了解底层硬件实现的情况下达到最佳性能和效率。Arm词汇表是Arm文档中使用的术语列表,其中包含这些术语的定义。Arm词汇表不包含行业标准术语,除非Arm对该术语的含义与普遍接受的含义有所不同。本文档适用于系统设计师、系统集成商和编程人员,他们正在设计或编程使用Arm核心的片上系统(SoC)。此文档仅涵盖Cortex-A715核心的软件可见行为,并不涉及背后行为的硬件原理。翻译 2023-07-31 21:19:08 · 49 阅读 · 0 评论