dell emc 性能服务器,牛刀小试 性能亮眼:Dell EMC PowerEdge R7525服务器实战

从上图来看,不同NUMA设置下,R7525的内存总带宽还是有明显差异的。比如在NUMA设置为4(即R7525中有8个NUMA)的情况下,内存总带宽最高,接近了190GB/s,与AMD公布的204GB/s相差不大。而在NUMA为0的情况下,内存带宽几乎降低了一半。同时从上图也可看出,在内存带宽的测试中,L3 Cache as NUMA Domain的启用或关闭,对测试结果并没有明显的影响。

接下来是关于内存延迟方面的测试,设置不同的NUMA选项,这意味着核心在访问内存时有两种选择:

1、访问本地内存,例如NUMA内核心只访问所在NUMA的内存

2、访问远程内存,例如8 NUMA设置下,NUMA 1内的核心访问其他NUMA中的内存

同时,不同NUMA设置下,E企研究院再加上L3 Cache as NUMA Domain的启用或关闭,来评估这一选项对内存延迟的影响。

6d2e1f882085433ac33f7965c1a3c019.png

上图显示了在L3 Cache as NUMA Domain启用或关闭情况与不同NUMA设置下,核心访问本地内存的延迟情况。从测试结果来看,如同内存带宽的情况一样,在NUMA设置为4(即8 NUMA)情况下,访问本地内存的延迟最低;同时,L3 Cache as NUMA Domain在关闭状态下,更利于访问本地内存的延迟。

需要注意的是,这里的“本地内存”是相对NUMA设置而言,例如当NUMA设置为0时,在任意核心看来,所有的内存都是本地内存,哪怕是跨CPU访问内存。所以从上图可以看到,当NUMA设置为0时,内存的访问延迟显著高于其他NUMA设置。而在远程访问方面,我们得到了一些不同的结果,如下图所示:

57502ca8d1319f996f3a21ee0841fa5d.png

图注:上图显示了在L3 Cache as NUMA Domain启用或关闭情况与不同NUMA设置下,核心访问本地内存的延迟情况。首先从测试结果来看,L3 Cache as NUMA Domain的启用或关闭,对于内存的远程访问没有影响。当NUMA设置为0时,内存远程访问的平均延迟最低,明显低于其他NUMA设置。而其他NUMA设置下,内存远程访问的平均延迟并没有明显差异从测试结果来看,EPYC处理器中的多个内存控制器仍存在一定局部性,即NUMA依然存在。因为不管是在内存总带宽还是内存延迟方面,当NUMA设置为4时,其性能总是优于其他NUMA设置。从AMD的一些公开资料,我们找到了答案。

bc8446d5605e03c32b2cffaf52463db7.png

图注:在IEEE 2020大会上,AMD的演讲揭示了其不同内存延迟的奥秘。在第二代EPYC处理器中,依旧具有4个内存控制器,每2个CCD共享一个内存控制器,而且4个内存控制器采用环形连接,对角线上的两个内存控制器并没有直接连接,这就是为什么NUMA设置为4的情况下,其本地内存访问延迟低于NUMA为2或1时的延迟

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值