RK3399 Pro性能指标解读

RK3399 Pro采用双Cortex-A72大核+四Cortex-A53小核CPU结构,性能提升显著。配备Mali-T860MP4 GPU,支持OpenGL、OpenVG、OpenCL等标准。集成NPU,支持8bit/16bit运算,适用于AI应用。内存支持双通道DDR3/DDR4及eMMC 5.1,具备高效多媒体处理能力,支持4K VP9和H265/H264解码。
摘要由CSDN通过智能技术生成

CPU

双Cortex-A72+四Cortex-A53 大小核CPU结构

背景

64位时代以来,ARM已经发布了Cortex-A57/A53一大一小两种架构,但只有A53遍地开花,高性能的A57核心在手机市场只有三星、高通在用,面临着难产的尴尬。为此,ARM公司于2015年2月份推出了A57的继任者——Cortex-A72架构,号称性能是A15的3.5倍,功耗则降低了75%。

当时我们对ARM的Cortex-A72核心了解并不多,只知道A72核心会使用新一代的FinFET工艺生产,包括三星/Globalfoundries的14nm及TSMC的16nm,得益于先进的工艺,A72核心频率更高,可以达到2.5GHz,更高的频率有助于A72增强服务器市场的存在感,这也是它的目标市场之一。

ARM之前宣传A72核心性能是前代的3.5倍,功耗降低了75%,但大家也得清楚这只是宣传而已,ARM并没有直接对比A57与A72的差别,如果只看这两者,A72核心在同样的14/16nm工艺下只比A57提升了34%(2.6x到3.5x,还得考虑到频率上的差异),而在同样的28nm工艺下,其功耗也不过减少了20%左右。

ARM似乎在性能、功耗及核心面积这三个方面都做了全面的改善,这也是半导体设计的三个重要指标。这个成绩是ARM重新优化了几乎所有A57逻辑区块之后才得来的,其中CPU架构做了相当大的改进,包括新的分支预测单元,改善了解码器管线设计等。

在指令预取这一块,我们可以看到ARM重新设计了分支预测单元,它可以支持更复杂的算法,提高了性能、降低了功耗以、误预测率及投机(speculation),具体来说就是相比A57降低了50%的误预测,25%的投机率。多余的分支预测单元则被禁止了。——实际工作中,如果分支预测单元不能有效工作,那就会被绕过去。

此外,通过更好地耦合不同的IP模块,ARM还优化了RAM组织。

再来看A72的管线设计,解码/重命名性能也提升了。解码器自身是3指令发射的解码器,但ARM在提升性能。降低功耗方面花了很大精力。为了提高要性能,提升了有效的解码带宽,而解码器也获得了一些AArch64指令融合增强。此外,功耗也通过多种方法降低了,包括直接的解码等。

看起来指令分派/收回(Dispatch/retire)单元是提升性能而做的改进中变化最大的。解码器可以融合指令,ARM的指令分派单元可以将ops操作打乱成更小的微操作(micro-ops)输送给执行单元,这样可以在指令派发单元将3发射变成等效5发射。这将提高解码器的吞吐量,同时也提高了每个周期内指令派发单元创建的微操作数。

A72架构,ARM表示平均每个指令有1.08个微操作,这将缓解57架构中实际受限的指令派发单元的性能。

另一方面执行单元也有新的设计,包括新一代的FP浮点/高级SIMD单元,由于FP浮点管线从9降低到了6,因此延迟更低。FMUL(浮点乘法)的延迟也从5周期降低了3周期,FADD(浮点加法)从4降到3&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值