RK3399 Pro性能指标解读

最新推荐文章于 2024-09-06 08:00:00 发布

Mikko丶

最新推荐文章于 2024-09-06 08:00:00 发布

阅读量2.6k

点赞数

分类专栏： RockChip 工作集合

本文链接：https://blog.csdn.net/qq_45763093/article/details/117459273

版权

RK3399 Pro采用双Cortex-A72大核+四Cortex-A53小核CPU结构，性能提升显著。配备Mali-T860MP4 GPU，支持OpenGL、OpenVG、OpenCL等标准。集成NPU，支持8bit/16bit运算，适用于AI应用。内存支持双通道DDR3/DDR4及eMMC 5.1，具备高效多媒体处理能力，支持4K VP9和H265/H264解码。

摘要由CSDN通过智能技术生成

CPU

双Cortex-A72+四Cortex-A53 大小核CPU结构

背景

64位时代以来，ARM已经发布了Cortex-A57/A53一大一小两种架构，但只有A53遍地开花，高性能的A57核心在手机市场只有三星、高通在用，面临着难产的尴尬。为此，ARM公司于2015年2月份推出了A57的继任者——Cortex-A72架构，号称性能是A15的3.5倍，功耗则降低了75%。

当时我们对ARM的Cortex-A72核心了解并不多，只知道A72核心会使用新一代的FinFET工艺生产，包括三星/Globalfoundries的14nm及TSMC的16nm，得益于先进的工艺，A72核心频率更高，可以达到2.5GHz，更高的频率有助于A72增强服务器市场的存在感，这也是它的目标市场之一。

ARM之前宣传A72核心性能是前代的3.5倍，功耗降低了75%，但大家也得清楚这只是宣传而已，ARM并没有直接对比A57与A72的差别，如果只看这两者，A72核心在同样的14/16nm工艺下只比A57提升了34%（2.6x到3.5x，还得考虑到频率上的差异），而在同样的28nm工艺下，其功耗也不过减少了20%左右。

ARM似乎在性能、功耗及核心面积这三个方面都做了全面的改善，这也是半导体设计的三个重要指标。这个成绩是ARM重新优化了几乎所有A57逻辑区块之后才得来的，其中CPU架构做了相当大的改进，包括新的分支预测单元，改善了解码器管线设计等。

在指令预取这一块，我们可以看到ARM重新设计了分支预测单元，它可以支持更复杂的算法，提高了性能、降低了功耗以、误预测率及投机（speculation），具体来说就是相比A57降低了50%的误预测，25%的投机率。多余的分支预测单元则被禁止了。——实际工作中，如果分支预测单元不能有效工作，那就会被绕过去。

此外，通过更好地耦合不同的IP模块，ARM还优化了RAM组织。

再来看A72的管线设计，解码/重命名性能也提升了。解码器自身是3指令发射的解码器，但ARM在提升性能。降低功耗方面花了很大精力。为了提高要性能，提升了有效的解码带宽，而解码器也获得了一些AArch64指令融合增强。此外，功耗也通过多种方法降低了，包括直接的解码等。

看起来指令分派/收回（Dispatch/retire）单元是提升性能而做的改进中变化最大的。解码器可以融合指令，ARM的指令分派单元可以将ops操作打乱成更小的微操作（micro-ops）输送给执行单元，这样可以在指令派发单元将3发射变成等效5发射。这将提高解码器的吞吐量，同时也提高了每个周期内指令派发单元创建的微操作数。

A72架构，ARM表示平均每个指令有1.08个微操作，这将缓解57架构中实际受限的指令派发单元的性能。

另一方面执行单元也有新的设计，包括新一代的FP浮点/高级SIMD单元，由于FP浮点管线从9降低到了6，因此延迟更低。FMUL（浮点乘法）的延迟也从5周期降低了3周期，FADD（浮点加法）从4降到3&