不久前,浪潮商用机器一位架构师背着老板把浪潮K1 Power Linux服务器给“解剖”了。但是有网友质疑说顶多算半个拆机,不过瘾!
安排!
不过这次拆的可是价值百万的豪华机型——浪潮K1 Power E950!

价值百万可不是随口说说,不信,看基本规格就能“管中窥豹 略见一斑”了。
K1 Power E950基本规格
Ø最大支持4颗scale-up POWER9处理器,优化了吞吐量,支持高达每核8线程(SMT8)的同步多线程功能
Ø最大支持16TB内存容量
Ø支持8个PCIe Gen4 x16插槽,2个PCIe Gen4 x8,1个PCIe Gen3 x8
Ø支持4个NVME硬盘,8个SAS 3.0硬盘
Ø支持IO和storage扩展
ØCPU VRM,MEM VRM电源多相冗余设计
Ø支持IBM AIX、IBM i和Linux环境
☆
拆机基本原则:拆机顺序为“从前到后,由外到内”
1 前面板—>风扇—>硬盘—>操作面板

前面板:大风量的通孔设计、优秀的电磁屏蔽性能
- 前面板材质为塑料,内含金属纤维,增加了机箱整体的电磁屏蔽性能
- 在造型上采用了大风量的“六角孔”通孔设计
- 左上角Inspur Power Systems的logo采用金属拉丝工艺,提升产品质感

系统风扇:4颗高性能9276风扇,低振动,高寿命;免工具拆卸设计,支持在线更换备件
- 前面4个系统散热风扇可以从正面进行插拔维护,支持在线更换
- 风扇框采用的是金属材质,整体结构质量和减震性能更好;扇叶的轴承是采用的陶瓷轴承,具有耐腐蚀、耐高温、高润滑的特性
- 单个风扇最大可提供234CFM风量,一个风扇模组包含了转子和风扇转接板,有效降低运行时带来的振动
- 风扇设计寿命可以长达20万小时(>23年)连续运行

存储硬盘
- 存储部分包括4个NVME3.0硬盘位,8个2.5寸SAS 3.0硬盘位
- 所有硬盘均支持在线热插拔维护

OP Panel+诊断LCD模块
- OP Panel是K1 Power主机特有的控制和诊断显示工具,包括开机键,reset键,和状态指示灯和显示屏,显示屏可以显示机器的状态和故障信息
- 整个模块支持在线维护
2 IO模组—>FSP卡—>PSU

IO模组:每个插槽采用模块化设计,支持PCIe Gen4规格和在线热插拔
- 后面设计了11个PCIe卡的位置,其中3个固定位置用来搭配网卡以及高性能RAID卡,另外8个位置是支持PCIe x16 4.0规格,对于一台4U4路机器来说,能支持这样全高半长卡的数量是比较极限的设计
- 值得注意的是,每一个PCIe卡槽都是模块化设计,都支持热插拔,可以通过HMC在线操作对卡槽进行热添加和热移除

FSP卡:系统管理,监控管理,支持并发故障转移
- 最左面是管理卡,在POWER系统中也叫FSP卡,它对外提供2个网口管理口和1个串口管理口,另外还有2个USB接口,可以用来dump系统日志,管理卡有自己的处理器、内存、OS
- 开机时,它会对整个系统的硬件进行初始化配置,比如系统的CPU、内存、PowerVM这些资源都是通过FSP卡来配置的
- 此外还负责整机状态的监控管理,这一点类似于x86系统中的BMC,FSP卡在POWER机器中是非常重要的角色

PSU:为整系统供电,铂金电源模块,支持N+1冗余,支持热插拔
- 支持4个2000W的铂金电源,效率可以达到94%以上
3 内存板—>VRM卡—>TPM卡—>VPD卡—>散热器/CPU—>电源板—>风扇背板模组—>主板

内存板:K1 Power E950内存扩展采用高性能内存Buffer芯片实现,每个内存板采用34层PCB设计保证信号质量,单CPU内存带宽达到230GB/s
- 一块内存板集成4个内存Buffer芯片和16条内存卡槽;一个CPU最大支持8个内存Buffer,也就是2个内存板,4个CPU支持8个内存板,这种设计使整机可以达到更高容量以及更高带宽,4颗CPU最大可以支持16TB内存容量,单CPU内存带宽高达230GB/s

- 使用内存Buffer也带来一些新的RAS特性:比如它比传统64bit内存总线要多一个spare byte,可以多控制一个x8 或两个x4 DRAM,这可以使DRAM有冗余功能,具有强大的纠错能力
- 支持内存Chipkill保护机制,后续针对内存的RAS特性会在后续的POWER系统RAS相关专题进行详细介绍,欢迎大家关注

CPU VRM:CPU供电稳压模块,用于为CPU提供电源
- 模块化电源设计,免工具拆卸,便于维护
- 整个模块集成12相电源,为CPU提供多路供电,每一路电源均采用N+1 phase冗余设计,可实现电源故障隔离报警,提高无故障运行时间
- 高规格的阻燃设计,提高系统安全性

MEM VRM:内存供电稳压模块,用于为内存板提供电源
- 模块化电源设计,免工具拆卸,便于维护
- 整个模块集成16相电源,为内存板上的内存和Buffer芯片提供多路供电,每一路电源均采用N+1 phase冗余设计,可实现电源故障隔离报警,提高无故障运行时间
- 高规格的阻燃设计,提高系统安全性

IO VRM:IO供电稳压模块,为IO提供电源

STBY VRM:备用电源供电模块,为系统关机状态下进行供电
整体来说,机箱内部对于不同的部件都设计了不同的供电稳压模块,比如IO 稳压模块、内存稳压模块、CPU稳压模块、STBY稳压模块,所有的稳压模块都具有高可靠性设计,比如用到了Phase冗余设计,电源Phase支持N+1冗余。使用过程中,如果有其中1 Phase供电出了问题,可以动态切换到其他Phase继续供电,维持整机持续运行,避免宕机,很好地保证客户业务不受影响。

TPM:模块化设计,提供固件Secure Boot功能
- TPM卡提供了固件Secure Boot功能,通过对PNOR代码的签名及验签过程,保障代码不被恶意篡改
- 同时兼具整机离线诊断功能,在断电时通过按键触发点灯指示错误部件的位置

VPD卡:存储机器的关键信息
- 存储机器的一些关键信息,比如机型、序列号、版本号、当前机器的配置以及每个部件的信息

CPU:P9 Scale up,24S SMT4 core
- 14nm工艺,它的socket有3899pin,最大可以支持24core。
- CPU正中间有大量pin脚,CPU与插槽之间接触受力要求非常高,达到377LB,压合时需要整个socket表面受力均匀,不能影响到信号质量,IPS研发在设计时做了大量的结构仿真,使CPU与插槽之间接触达到最完美的状态

CPU散热器
- 散热器底部平面度要求高,有利于pad贴合更紧密、热阻更低、散热效果更好,导热界面材料散热效率更高
- CPU散热器采用了热阻更低,导热效果更好的铜基材料,可以支持高达300W功率的CPU散热。
- 这款CPU散热器通过了大量结构散热仿真验证和可靠性测试,工艺非常精良,底部平面度为0.05mm,而且采用了耐用性很好的金属导热界面材料,减少CPU和散热器之间阻抗。
- 在安装方式上采用了两边扣合,中间单螺丝紧固的方式,在保证高扣合力的同时,简化了拆装的操作过程

电源板:系统供电,每个计算节点支持4颗POWER9处理器
- 系统电是通过这个电源板供给板卡的,采用大通流供电母排设计,保证供电的稳定可靠

风扇背板模组
- 提供前置风扇、硬盘的结构模组和接口
- 一体化模组设计,方便拆卸

- 背板与RAID卡之间通过cable连接,支持单RAID卡和双RAID卡灵活配置,可以组成不同的拓扑.在Storage Performance模式下,双RAID卡和8块硬盘拓扑全冗余互联,从RAID卡,到cable,到硬盘背板,到硬盘每一部分都是冗余设计,为系统提供高可靠的存储性能

主板:40层混压PCB设计,保障关键高速信号质量
- 最最重要的主板拆出来了,烫金的Inspur Power Systems的Logo映入眼帘

- 另一视角,感受下40层主板PCB的厚重感

4颗CPU使用高速总线全互联架构,总线速率高达16Gbps,任何一个CPU访问remote内存数据时都会有更低的延时
该主板PCB层叠达到40层,大约6mm厚,采用混压工艺设计,设计和加工难度极大,是目前业界最高层数的服务器主板,全板3万多pin,7000多个器件,高速总线占70%。全板设计约5万6千个过孔,厚径比高达22:1,背钻孔数量多达3万多