2024年数据中心能源十大趋势白皮书(6-10)

第六章 专业化管理平台让数据中心运 维更安全、更高效

伴随着数据中心基础设施的规模化和复杂化,其整体的管理复杂度大大增加。同时,数据中心基础设施也逐步智能化、 数字化,各设备厂家也纷纷通过AI等手段通过云服务能力,大大增强了其设备管理能力。通过高效利用云端构建的专 业化管理平台来降低数据中心的运维复杂度,提升运营效率,提高基础设施可靠性,将是一种新的方向

运维极简

云数据中心复杂度激增,大大增加了维护的复杂度

伴随着服务器功率密度的逐步增加,数据中心基础设施设备也逐步集成化,功能特性也越来越智能化,对运维人员的技能提出了更高的要 求。同时数据中心的规模也逐步从千柜规模演进到万柜规模,相对应的整体运维复杂度也随之激增。在这样的背景下,数据中心管理者和 运维团队面临着前所未有的挑战,数据中心基础设施的运维架构需要在不断变化的环境中保持灵活和敏捷,以适应未来更高性能和更高功 率密度的智能算力需求

专业化管理平台,能够更好地诊断和解决设备问题,让运维更安全更可靠

随着云计算技术的发展,越来越多的数据中心设备厂家通过云端构建的专业化管理平台,来辅助数据中心日常的管理和运维,以增强厂家 设备的服务能力和增值特性,进一步帮助客户提升运维效率及设备可靠性。相比于传统的本地管理系统,专业化管理平台可通过云服务的 方式提供了运维服务,利用AI、大数据、IOT等技术,借助原厂对设备结构、工作原理、维护方法等深入的理解,帮助企业进行设备故障 自动诊断,AI预测性维护,识别潜在隐患,更好地诊断和解决设备问题。能更专业、高效的指导企业进行设备的维护保养,以延长设备的 使用寿命。

随着AI算法迭代更新,故障预测与诊断能力持续增强

通过大数据、AI、IOT等技术,可在专业化管理平台上进行故障树建模,当有故障发生时,可自动进行智能故障诊断,实时屏蔽无效的次 生告警,快速定位各类设备的故障。同时,通过平台不断累积的海量故障处理经验,可让模型精度更高,诊断与预测能力更强。例如:对 于一体化UPS,当主输入端断电时,可以自动进行告警关联,自动屏蔽各个输出分支的次生告警,以突出根因告警,帮助运维人员及时对 故障进行修复。随着AI算法演进,可支持rPDU故障、市电掉电故障、UPS功率模块故障、柴发故障等更多设备故障场景,大幅缩短故障 响应与修复时间。

设备与厂商直连,能给企业提供更快速更有效的响应与指导服务

在数据中心的运行过程中,可能会出现各种告警及紧急情况,目前本地管理系统中大多配置了邮件、短信等告警通知方式,通过定义的告 警规则来触发告警,但存在漏报、误报隐患。而且对于故障处理,需要经历手工联系厂家建单,工程师现场故障日志采集、故障定位、软 件升级及备件更换等步骤,故障处理效率低。但通过专业化的管理平台,可将设备与厂商进行直连,如当数据中心出现如烟雾告警、溢水 告警、机房高温告警等紧急情况时,原厂客服能精准识别,并第一时间联系企业并协助进行故障处理,还可通过远程日志发送、OTA升 级推送等手段,帮助故障快速修复,提高数据中心的可靠性和稳定性

技术与应用

湖北广电传媒大厦数据中心 , 采用了华为移动智能管理 iManager-M解决方案,不仅实现了机房远程移动运维,还能 借助原厂专业的设备维保经验、告警主动通知能力、故障预测与 诊断能力,让数据中心运维更安全、更高效。

第七章 风液融合将成为业务需求不确定 场景下的优选架构

人工智能技术的不断发展,引发了对高性能和高密服务器的需求,而这往往需要采用液冷技术来确保硬件稳定运行。 但由于当前正处于通用计算和人工智能计算的过渡期,每个项目的建设需求比例往往不确定,因此,未来的数据中 心基础设施需要具备灵活性,可以根据未来业务的发展调整和演进,以满足不断变化的需求

未来演进

智能算力的快速爆发,将为数据中心带来极大不确定性

数据中心作为信息时代的基础设施,其算力需求随着业务发展不断变化,因此基础设施也需要不断演进。尽管当前智能算力在数据中心总 算力中的占比较低,然而,我们正处于通用算力向智能算力的过渡期。随着生成式人工智能技术的迅猛发展,智能算力需求将呈现出爆发 式增长,年复合增长率高达80%,远远超出数据中心平均算力增长水平。这为数据中心带来了巨大的机遇,同时也大大增加了数据中心 业务需求的不确定性。

当前主流的数据中心中,通常采用通用服务器,其单柜的功率密度一般不超过15kW/柜,使用风冷型制冷设备即可满足稳定运行的要求。 相比之下,智能算力需要庞大的推演算法,其内置的智能计算芯片导致其功率密度普遍较高(≥30kW/柜),往往需要采用液冷方式进行 冷却。在数据中心建设初期,用户往往难以准确预测通用算力和智能算力的未来占比和发展趋势。因此,在建设时,需要根据现有算力需 求进行设计,并考虑解决方案能够支持未来智能算力增长的需求。因此,迫切需要支持未来演进的数据中心架构

风液融合将成为业务需求不确定场景下的优选架构

伴随着智能算力的需求引入,同一个数据中心会同时存在中低功率密度(≤15kW/柜)和高功率密度(≥30kW/柜)的场景,这对制冷系 统的规划建设带来了极大的挑战。用户需要在能满足当期业务需求的基础上,同时满足未来业务发展趋势的演进。 在这种背景下,风液融合架构将成为可以匹配未来演进的数据中心优选架构。其核心思想是,利用风冷和液冷的不同特点,实现数据中心 的制冷量动态分配。在冷源侧,通过一套系统提供风冷和液冷两种方案,通过风道和管道设计,将风冷和液冷分别应用于不同的服务器, 根据服务器的功率密度和业务特点,选择合适的制冷方式。

风液融合的关键是,实现风冷和液冷的比例可调,即在数据中心的总冷量固定的约束下,根据实际的需求,动态调整风冷和液冷的分配, 以达到最优的制冷效果。例如,当数据中心的智能计算需求增加时,可以减少风冷的比例,增加液冷的比例,反之亦然。 风液融合的优势风液融合的优势在于,它可以适应数据中心需求的变化,提高数据中心的效率和灵活性。

具体来说,风液融合有以下几个 方面的优势:

节能:风液融合可以根据数据中心的实际需求,动态调整风冷和液冷的比例,从而实现最佳的制冷效率。相比于单一的风冷或液 冷,风液融合可以节省数据中心的能耗,降低数据中心的运营成本。

适应性:风液融合可以适应数据中心需求的变化,无论是通用计算还是智能计算,都可以找到合适的制冷方式。相比于单一的风 冷或液冷,风液融合可以提高数据中心的适应性,避免数据中心的过度设计或不足设计。

未来演进:风液融合可以根据数据中心的发展,灵活分配风冷和液冷的规模。相比于单一的风冷或液冷,风液融合可以提高数据 中心的可演进性,满足数据中心的未来演进。

第八章 间接蒸发冷依然是现在和未来 最优的制冷方案

随着AI智算成为行业热点,对数据中心基础设施也提出了各种新的挑战和诉求,比如对应的液冷也成为了当 前的主流热点。那是否意味着未来几年数据中心制冷系统会大部分甚至全部切换成液冷,未来又会以何种节 奏演进,与之对应的间接蒸发冷却等制冷方案又会发生什么新的变化?

制冷高效

智算高密场景存在,主流的依然是通用计算中低密场景

AI技术的快速发展推动了智能数据中心的迅猛增长,而数据中心的功率密度需求也随之逐渐提升。尽管高密度数据中心的场景正在逐步增 多,但从建设总量和增长趋势来看,短期内云数据中心仍将保持主导地位。预计未来三年内,新建数据中心中超过90%仍将是传统的中 低密度云数据中心,单柜功率密度不超过15千瓦,整体制冷方案仍以风冷方案为主。这一发展趋势表明,虽然高密度数据中心正在崛起, 但传统云数据中心仍然占据着主导地位,且在短期内不会发生根本性的改变

AHU一次换热,最大化利用自然冷源,实现低PUE且经济性最优

针对非智算数据中心,间接蒸发冷却方案在当前的数据中心行业中拥有比较明显的优势来满足需求。 从架构层面来说,间接蒸发冷却方案采用分布式制冷架构,相比集中式架构的冷冻水系统,能够有效降低单点故障引发系统故障的风险, 有效提升机房的运行可靠性。 从换热效率来说,间接蒸发冷却方案通过一次换热的换热芯体设计,能够最大程度地利用自然冷源,相比传统冷冻水系统的四次换热,具 有明显的节电和节水优势。特别是在低温情况下,绝大部分时间可以依靠自然冷源,无需机械辅助制冷,这在PUE和WUE指标上都有显 著的优势。 从交付和维护来说,间接蒸发冷却方案属于工程产品化方案,能够最大程度地采用工厂预制,不仅减少了现场施工工程量,缩短工程交付 时间,也能更好的进行质量保障。而且由于其结构的简化,维护的复杂度也大大降低,为后续的日常维护降低成本。 经过5年以上的市场验证,间接蒸发冷却方案在设计、施工和运维方面已经非常成熟。整体综合成本约为传统冷冻水系统的0.8倍,商业逻 辑更为优越。基于整体数据中心行业的发展趋势,预计未来3年内,间接蒸发冷却仍然是经济性最优的低PUE制冷方案

技术与应用

乌兰察布某数据中心1000余个机柜。由 5 层共 368 个预制模块箱体堆叠,其中 2~5 层应用间接蒸发冷却解决方案制冷,年均PUE低至 1.15,数据中心年省电费 12.2%。

第九章 能效PUE挖潜要从关注部件高效 调整为系统工程最优解

AI大模型技术爆发,推动数据中心进入智算时代。一方面,算力激增,数据中心能耗持 续上升。另一方面,面对双碳目标,对数据中心能耗提出更高要求。单纯依靠产品和部 件的高效选型,已经不足以缓解高额能耗的增加。数据中心节能效PUE挖潜,需要转 变思路,从关注部件高效到系统工程最优。

系统高效

部件高效接近瓶颈,微小改进的时间和成本远赶不上算力时代需求

随着以ChatGDP为代表的大模型开发和应用取得巨大进展,算力需求尤其是智能算力需求出现大幅提升。根据信通院发布的《2023智能 算力发展白皮书》显示,2022年全球智能算力增速为25.7%,中国增速高达41.4%。预计未来五年全球算力规模将以超过50%的速度增 长。数据中心的本质是把电力转换为算力。一方面,算力的激增带来能耗的激增,另一方面,面临双碳目标,数据中心绿色低碳发展的要 求不断加码,PUE监管越发严苛。温控和供电系统占据数据中心能耗的40%以上。传统方式,数据中心主要通过高效设备选型,提升部 件的效率来降低PUE,如高效冷机、高效空调、高效UPS等。 经过多年发展,UPS双变换效率高达97%,冷机COP超过8。冷冻水空 调COP接近4,单部件的效率已经接近极限,行业厂家普遍进入微创新阶段,部件效率的微小提升,往往需要大量的研发投入和时间积累 才能实现,要付出的商务和时间成本远超过算力中心的投资收益。因此。数据中心节能效提升,需要转变思路,用新的方式挖潜PUE

PUE挖潜,需要系统审视现实条件和各部件技术水平

数据中心涉及IT、温控、供电、网络等多个子系统,本身就是一个系统工程。影响数据中心能效水平的因素众多,如技术架构、设备选型、 运行策略、运行环境、IT工作环境、自然条件,且各因素间相互影响, PUE挖潜,需要用系统工程思维来综合审视,实现系统现实条件 和部件技术水平的最优权衡。从部件效率转为关注链路效率,改变运行方式,提升系统效率。比如2N供电系统,采用一路市电+一路智能 在线(S-ECO)模式,保障可靠性的同时,提升供电系统效率。从关注部件效率到关注运行环境,在服务器允许的范围内,提升送风温 度,加大送回风温差,既可以减少机械制冷的使用量,提升自然冷源比例,降低温控系统能耗。同时,更宽的温度运行范围,有助于提升 IT服务器部署密度和运行负载率,在同等能耗情况下实现算力最优,同时,可以采用人工智能调优技术,各系统间的最优运行配置,实现 算力和能耗的综合权衡,从能效(PUE)最优到算效(PFPUE)最优

技术与应用

广州联通IDC,总建设规模约为19.91万平方米,采用系统工程思路,提升全域能效。温控系统采用高温冷冻水系统,进水温度从12度提升 到了18度,大幅提升制冷效率。同时,送风设置为24-25度,回风36度,提升温控和IT系统效率。供电系统采用智能在线运行模式,电能 转化效率达到99.1%,相比传统方式,供电效率提升3%以上。数据中心30%满设计负荷假负载下的测试结果为1.298,整体能耗降低了 20%以上。

第十章 AI调优将成为存量DC能效 智能优化的最佳选择

国家双碳目标对数据中心能耗提出了更为严格的要求,这促使存量数据中心的节能改造成为当务之急。然而,传统的单纯硬件改造面临着诸多困难和挑战。值得关注的是,随着人工智能(AI)新技术的迅速演进,简单的硬件改造 +AI软件优化有望成为数据中心节能改造的大规模应用。这一趋势将为数据中心节能改造提供更为可行的途径,并有望在未来成为行业的主流选择。

调优高效

数据中心是耗电大户,减排迫在眉睫

数据中心在实现信息化和数字化进程中扮演着至关重要的角色,并在云计算、5G、人工智能等领域发挥着关键作用。据2022年全年数据 显示,全国数据中心的耗电量已经达到了惊人的2700亿千瓦时,占全社会用电量的约3%,较2021年的2166亿千瓦时增长了25%。随着 互联网数字化进程的加速推进,预计到2025年,全国数据中心用电量占全社会用电量的比重将提升至5%。而到2030年,全国数据中心 的耗电量预计将接近4000亿千瓦时,因此,数据中心的减排问题显得迫在眉睫。

双碳政策,PUE监管趋严,传统改造困难

截至2022年底,全国数据中心存量达到650万架,其中PUE超过1.5的占比超过50%,即有超过300万架的数据中心PUE超过1.5。自 2021年以来,大型和超大型数据中心的新建项目就开始受到约束:PUE不高于1.3。2022年“东数西算”一体化大数据中心建设,也明 确要求集群内的数据中心PUE在东部地区要低于1.25,在西部地区要低于1.2,先进示范工程更是将PUE要求降低到1.15。同年,国家强 制标准GB40879《数据中心能效限定值及能效等级》正式发布,这标志着未来的监督管理将以强制标准为依据,PUE监管将变得更加严 格。除了发布数据中心能效指导性政策外,一些能耗重点省份的发改委、工信局等部门还制定了更多惩罚性细则,例如差别电价、不达标 则退、在线能耗监测等。PUE不达标的数据中心不仅面临高额电费,还可能面临关闭整顿的风险。

针对传统数据中心的节能改造,主要涉及增删改现有老旧设备,例如将定频设备改为变频设备,将低效率设备替换为高效率设备,以及增加流量计和切割管道等操作。这些改造需要停止数据中心的业务运行,对实际业务产生较大影响和损失。为达成改造目标,最重要的就是 在温控领域发力,业界往往会采用更换更优制冷设备,例如行级空调近端制冷、间接蒸发冷却、高温冷冻水风墙、氟泵空调等。然而,单一的硬件节能技术总会存在瓶颈,需要寻求更加创新的解决方案

AI智能调优成为数据中心节能软改造的最佳方案

业界比较常见的是采用人工方式对制冷系统进行软件调优,但人工调优高度依赖专家经验,制冷系统复杂,设备、参数多,靠人工筛选出 最佳组合难度大;其次人工无法基于环境参数和负载率实时调优,效果难保持;且人工调优多为部件级或局部系统级调优,未考虑IT负载 变化引起的实际制冷需求变化,不能实现数据中心全局制冷系统的联动优化。所以,仅靠单一的人工调优,节能效果有限,且高度依赖人 工经验,不可复制。

伴随着人工智能AI技术的高速发展,AI节能也在数据中心行业得到越来越广泛的应用。从第一代的机理白盒算法,第二代的数据驱动AI黑 盒算法,到第三代知识+AI成长型算法,利用协同学习架构,AI模型支持迁移学习,可在目标局点预置模型,如暖通架构、暖通设备参数 等实现共享,从而弥补数据上的不足,降低对传感器的数量要求。同时支持AutoML(自动机器学习)能力,实现模型保鲜,保障模型训 练的参数最优。这些新的AI节能技术的应用,可帮助存量改造快速交付,免改造不断线,持续智能调优,提高现场整体运维调优水平。

技术与应用 

上交所金桥数据中心,涉及大小冷机、定变频等多类设备、多工况模式,系统复杂,建模难度大,创新性的将华为iCooling能效优化引入到 数据中心,是全国金融行业第一家双冷源系统实践AI调优的大型数据中心,有效降低PUE 10%+,实现从制冷到“智冷”的转变

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值