企业数字化基础设施技术简介

                              企业数字化基础设施技术简介

1.基础设施架构简述

    从办公数字化和生活数字化到万物数字化是一个必然的发展过程,数据驱动的智能应用充斥在生活的方方面面,随着社会的发展和技术的演进,数据的增长量呈现越来越快的增长趋势。数据的存储、计算和传输等服务就是数字经济时代的基础设施。数据成为信息时代的血液,所有为数据的计算、存储、传输提供服务的就是基础设施。

1.1基础设施基本概念

    基础设施概念:为社会生产和居民生活提供公共服务的物质工程设施,用于保障国家或地区经济活动正常进行的公共服务系统。其具有以下特点:

    1)先行性、基础性;2)不可贸易性;3)整体不可分割性;4)准公共物品性。

    据以上特点,针对于互联网企业而言,公共服务就是数据中心、网络、服务器、计算、存储等。随着云计算的发展,“基础设施即服务(Infrastructure as a Service)”正在通过将互联网的基础设施辐射服务于全社会。

    构建统一基础设施架构,整体数据中心从软件层面抽象为6个组成部分:平台层软件(固件、驱动、操作系统、虚拟化)、资源管理、硬件抽象层、部署和维护(Autopilot)、编程框架(MapReduce)、应用层软件(数据库、机器学习)。

1.2基础设施作为技术驱动力

    计算能力的发展极大促进了目前AI技术的再次繁荣,云计算基础设施技术成为许多互联网企业业务的直接竞争力,计算能力、存储能力、网络能力成为云计算、AI领域重要的业务组成部分。

1.3基础设施的技术价值

    回顾互联网的发展,基础设施技术的持续创新给新业务提供了更多的机遇。

1.4基础设施的核心竞争力特征

    1)大规模的、可扩展的数据中心

    2)架构简单、高速的物理网络

    3)规模化、一体化、规格收敛的服务器

    4)可软件定义的虚拟化解决业务灵动问题

    5)调度系统解决资源的利用率问题

    6)DC大脑智能化解决运维问题

2.TCO:Total Cost of Ownership建模

    TCO是衡量技术进步的重要指标。其中电费指出占比在整个TCO模型中最高,国内外众多先进公司的一致目标是降低数据中心PUE,提高能效。

2.1TCO模型

    TCO=Server CapEx + Server OpEx + Network CapEx + 其他费用 + IDCCapEx + IDC OpEx

CapEx(Capital Expenses):固定投资

    数据中心CapEx:以10年为周期折旧,包括土建、电气、空调、柴油发电机组、市电引入等

    服务器及网络设备CapEx:以3~5年为周期折旧,通常包含CPU、内存、存储设备、网卡、服务器系统、交换机等。

OpEx(Operational Expense):运营成本

    运营成本在折旧之外运营设备需要的成本,比如水电、维修、人员成本等。

2.2TCO最优

    自建数据中心等基础设施面临边际成本压力,容灾成本急剧提升,使用公有云可以获得规模扩大带来的直接红利,使得成本可控,同时也可以使用弹性资源,使用公有云对于一般用户而言是实现最优TCO的首选。

3.数据中心能效

    数据中心能效是数据中心技术水平的重要衡量指标,随着数据中心规模和能源消耗的快速增长,能效指标越来越重要。数据中心能效主要从以下方面进行分析:

3.1数据中心电能利用率

    对于大数据中心来说,散热系统能耗占比往往仅次于数据中心IT设备用电,散热系统能效提升是一个重要课题。冷源系统能效提升主要从:1)选择更加高效的冷源设备;2)选择更加节能的冷源系统工况;3)尽可能多使用自然冷或延长自然冷时间;4)更加合理的设备管路布局。

3.2数据中心服务器电能利用率

    1)提升PSU(服务器电源模块)的能效;2)提升服务器风扇的能效;

3.3数据中心基础设施使用率

    电量供应、电量分配、制冷量、冷却流量、机架U数量,五个方面根据IT负载评估和确定基础设施资源要素使用率是否低下。

4.数据中心

    云计算给数据中心带来的极大的机遇和挑战。1)云计算需要数据中心具有更大的机房面积;2)数据中心的服务器密度更高;3)数据中心对可靠性的要求更高;4)数据中心需要更高的投资;5)数据中心需要高能效;6)数据中心需要具备高效的交付能力;7)数据中心对性价比要求更高;8)数据中心对监控工作的要求更高。

    服务器三种冷却技术:1)空气冷却; 2)冷板式液冷;3)浸没式也液冷

数据中心制冷技术的发展趋势

    首先,大型数据中心会进一步提高自然冷的利用,延长自然冷时间,进一步提高能效。

    其次,随着功率密度的提高,近端制冷和液冷技术开始在数据中心运用。

    最后,数据中心低品位热的利用和回收是未来重要的技术发展方向。

5.数据中心网络架构和关键技术

    一般来说,数据中心网络集群中超过5000台服务器就是一个超大规模数据中心网络。

5.1超大规模数据中心网络概述

1)网络架构及技术演变:

    网络架构的演变

    传统企业数据中心需要网络的组播和广播功能,以及网络的二层桥接技术,网络结构比较复杂,一般都是靠增加交换机的方式来扩大规模,来支持二层桥接功能和控制二层广播域防止广播风暴,这种网络有明显的二三层分界。

    现代互联网数据中心没有上述的应用负担,网络只集中在Unicast和三层路由,没有二层桥接、组播、广播,从而大幅简化网络的功能和协议,同时需要资源的弹性扩展,从而从物理网络架构分层模块化设计专项了横向可大规模扩展的CLOS架构设计。

    网络设备解耦和白盒化

    软件定义网络的核心思想就是把传统网络设备的管理平面、控制平面和数据平面分离,采用软件的方法集中控制和管理,让网络更加智能,同时简化数据平面,让网络更加简单。设备解耦把数据平面、控制平面、管理平面集中到一起的单个厂商封闭系统变成开发系统,让网络更加开放。

    网络功能虚拟化

    NFV通过使用X86等通用硬件及虚拟化技术,来代替原专业设备的软件处理,从而降低网络设备成本。其通过软硬件解耦以及功能抽象,是网络设备功能不在依赖于专用硬件,资源可以灵活共享,实现新业务的快速开发和部署。

    网络运维的自动化和智能化

    在以前,网络运维主要靠手工ping、traceroute等方式进行设备维护,代表性的有思科认证等。在超大网络架构下,此方法已经行不通。大型互联网公司在硬性超大规模的需求驱动和强大的研发能力配合下,通过对网络设备的自研,把设备和网络运维体系高效结合,做到了自动化运维。

2)未来发展趋势:

    网络带宽持续演进,芯片是核心竞争力

    交换机芯片技术和光芯片技术的持续迭代将有力的保障数据中心网络对带宽的增长需求,网络带宽的演进必然会牵引计算存储架构的演进,芯片具有可编程能力逐渐成为主流,网络可视化支持也就是芯片的核心竞争力。

    硬件白盒化、OS开源、软件自主可控

    自研交换机设备不仅节省成本,更是通过自主把控软件、定制化硬件,做到软硬件的一体化,不仅可以快速迭代网络功能来支持业务的发展需要,更能做到对网络的灵活高校监控,最终把网络变得更稳定和智能,让网络成为真正的核心竞争力。

    软硬件一体化的高性能网络转发:网卡硬件卸载和可编程芯片

    虚拟交换机是云数据中心网络不可分割的一部分,通过智能网卡,把服务器网络功能好酷哦vSwtich、vRouter等网络组件从x86卸载到智能网卡上,实现对x86服务器资源的释放,提供更高性能的网络处理性能。

    网络融合成为一体化数据中心的I/O:低延时网络

    网络变成计算机I/O的延伸,超高带宽和超低延时的网络将本地存储和网络存储界限模糊,为计算存储分离和资源池化的数据中心一体化架构奠定基础。网络是数据中心一体化的核心组件,成为下一代高性能计算和存储的强大驱动力。

    网络可视化技术,基于大数据和人工智能的智能化运维

    自动化运维有两个条件:1)有足够的数据;2)对数据的智能分析和处理能力。

    光互联

    数据中心设备间互联模块机线缆成本已经远远高于设备本身,控制、优化光互联成本对数据中心网络成本影像很大。

    绿色网络

    随着人工智能、大数据的逐渐普及,数据中心对计算力的去求越来越高,超高密度异构计算集群将成为核心竞争力,功耗、制冷是保障数据中心可持续发展的关键一环。

5.2数据中心网络协议和高性能网络

1)数据中心网络互联协议

    数据中心网络控制层面可以分为两个部分:一个是交换机之间的网络互联协议,另一个是交换机和服务器之间的网络互联协议。

    交换机之间的网络互联协议:在数据中心网络中,业界部署比较广泛的动态网络协议有两种:一种是Linkstate的网络协议OSPF,另外一种是Distance vector的网络协议BSP。从另一个角度看,因为大型数据中心网络一般都采用CLOS架构,每层交换机支架的连接都是对等的,所以每台交换机并不需要知道整个网络拓扑的信息就可以很好的完成路径选择的任务,BSP在此情况不是短板,所以BSP成为超大规模数据中心网络路由协议的最佳选择

2)高性能网络RDMA技术

    数据中心网络因为拥有海量服务器和数据访问,所以对网络的带宽、延迟和可用性三个方面都有非常严格的要求。随着高速以太网技术的不断发展,RDMA(Remote Direct Memory Access)技术逐渐能够满足上述三个方面的要求,为数据中心提供高性能的网络服务。RDMA是一种硬件I/O技术、RDMA设备将网络传输协议固化于硬件,通过内核旁路实现了CPU卸载和零拷贝,从而极大地降低了网络传输的延时,能够帮助应用程序更加充分的利用网络带宽。

    为了保证RDMA的高性能,RDMA需要无损的网络传输,RDMA网络环境中需要使用支持PFC和ENC两种特性的交换机和网卡。其中PFC是根据优先级队列的拥塞状态发送PAUSE的,逐级反压,流控响应很快;ENC则是基于交换机端口出队列来识别发生拥塞的报文。在接收端,网卡收到了ENC标识的包之后要发送给CNP,发送端会根据收到的CNP的状况来降低发送速率。使用ECN可以有效减少PFC的发生,但是PFC仍然是防止丢包的最后一道防线。

5.3可编程芯片和高性能网关平台

    在过去30年中,数据中心都是通过传统的网络设备来构建数据中心网络基础架构,支撑数据中心的业务数据传输。随着数据中心业务的快速增长,各种新的网络协议和网络技术的不断出现,传统的网络设备已越来越难以满足这些要求。传统网络逐步演变成SDN网络、网络虚拟化(NFV),特别是Intel DPDK技术的发展加快了网络软件化和虚拟化进程。

    网关是数据中心网络最重要的基础设备之一,高性能网关平台在技术层面主要分为两类:基于服务器于DPDK的高性能软件网关平台,基于可编程交换技术的具备极限交换性能的硬件网关平台

1)基于X86高性能软件网关平台Netframe

    Netframe是在Linux上开发的基于DPDK的高性能转发平台,其设计初衷是保证高性能转发的基础上,屏蔽底层细节,给上层应用抽象出通用的设备管理,提供网络特性、协议栈、友好的API接口和配置方式。

2)基于可编程交换机于SDN技术的硬件交换平台

    基于通用服务器NFV高性能网关具有强大的可编程能力,对新的协议支持好,具备高度灵活与表项大等优点,但是网络性能方面更交换机有较大差距。随着云计算业务的飞速发展,业务对于网关的交换能力需求呈现爆炸式的增长,白盒交换机和可编程芯片技术的兴起给我们带来了使用数据中心交换机作为网关平台的机会。可编程芯片的出现使得数据中心交换机可以兼顾性能和报文处理的灵活性,其有非常强的网络转发和处理能力,可以使用芯片来实现网络转发和提供网络服务,同时也可以利用其可编程 能力实现快速的网络功能部署和迭代。

5.4网络可视化技术

    网络可视化是一套基于交换芯片能力定制化开发的全新网络资源水位的数据化采集和分析技术。核心思路就是进行数据中心网络端到端的SLA量化评估,通过高速采集通道汇总到后端数据分析平台,在进行离线的数据汇总和计算,得到数据中心网络质量的准实时数据分析平台,在进行离线数据汇总和计算,得到数据中心网络质量的准实时模型,用于网络故障的快速检测和恢复,网络水位和业务不熟合理性评估、高性能网络连接的流控,以及基于意图网络(IBN)的自动化行为。

整个网络可视化系统分为两大组成部分:

    1)网络可视化前端技术:主要指在交换机侧和网卡侧,直接获取报文或流的转发质量数据,并将数据通过稳定高效的传输协议发送到可视化后端系统进行处理。

    2)网络可视化后端技术:主要指可视化数据的收集、预处理、分类、汇总、判断和展示的整体软硬件平台。需要将可视化前端传过来的海量数据做高效的处理,并以较低成本和高性能王城数据的分析和事件预警。

5.5城域网光传输技术

    城域网在一个城市区域内,提供园区间,以及园区内各数据中心集群间的高带块、低延时互联。对于云服务来说,他提供区域内各AZ间的高带宽、低延时互联,以及AZ(Availability Zone)内各集群建的高带宽、低延时互联,具备可扩展性,以及支持3~10各AZ的互联和扩容能力。

    光传输技术具有大带宽、长距离传输信息的优点,从诞生之初就应用在长距离传输网中。长距离、大容量的干线传输网技术一直是光通信技术的前沿研究领域。和短距离光通信不同,长距离光通信技术致力于解决噪声(光纤损耗)、光纤线性损伤和光纤非线性损伤对传输容量和距离的限制,以提高单信道速率、单根光纤的容量和无电中继的传输距离。

6.服务器技术

    在整个基础设施中,服务器是面向最终用户提供计算和存储资源,且在数据中心的整体TCO中占比最大的至关重要的角色。服务器是指具有高计算能力,能够通过网络提供给多个用户(包括企业、组织、个人)使用的计算机。服务器在硬件上由处理器、硬盘、内存、系统总线等构成,与通用的计算机架构类似,由于其需要提供高可靠的服务,所以在计算能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面的标准更高。

    服务器涵盖的技术领域非常广泛,设计从硬件散热、结构、BIOS/BMC等各功能部件和专项技术。数据中心服务器主要采用OEM模式、ODM模式、定制模式、自研模式和OCP开源模式等生产模式。

    OEM模式:互联网企业直接采购品牌服务器厂商的通用服务器,常见于小型互联网公司。

    ODM模式:互联网企业绕过OEM品牌服务器,直接采购ODM厂家的白牌服务器。

    定制模式:需求定制,互联网企业根据实际业务需求,ODM厂商根据客户需求进行服务器开发;规格定制,ODM厂商根据客户详细的规格要求进行服务器开发。

    自研模式:互联网企业整合服务器上下游资源,主导完成服务器设计,ODM厂商配合,掌握完整知识产权,可自主生产服务器产品。

    OCP(Open Compute Project)模式:Facebook公司发起的硬件开源组织。

服务器结构工程:

1)塔式服务器;2)机架服务器;3)刀片服务器;4)多节点服务器;5)整机柜服务器

7.计算机硬件技术

7.1通用计算

1)x86;2)AMD;3)ARM

典型业务和通用计算:

    ECS(弹性计算Elastic Compute Service)是一种性能卓越、稳定可靠、弹性扩展的IaaS级别云计算服务。

    数据库:原子性;一致性;隔离性;持久性。

7.2异构计算

    主要使用不同类型指令集和体系架构的计算单元组成的计算方式,包括GPU、FPGA、ASIC等。

7.3边缘计算

    在靠近物或数据源头一侧,采用集网络、计算、存储、应用核心能力为一体的开放平台,就近提供前端服务,其应用程序在边缘侧发起,产生更快的网络服务响应,满足行业在实时业务、应用智能、安全与隐私保护等方面的需求。简而言之,边缘计算是一种在物理上靠近数据生成的位置处理数据的方法。

根据算力不同,边缘计算分为轻、中、高3中不同算力场景。

7.4总线互联

    除了计算芯片本身对计算性能的影响,总线互联也是一个关键因素。Intel架构中,主要由两个总线:QPI/UPI和PCIe。

8.存储硬件技术

8.1内存

    DDR;NVDIMM与UltraDIMMer;AEP;HBM与HMC

8.2HDD

    硬盘是主要存储部件之一,由盘体、控制电路和借口不见组成。

8.3SSD

    固态硬盘是非易失性存储介质-NAND Flash芯片阵列、控制器芯片、DRAM芯片等半导体组合而成的硬盘、插卡或其他便携式存储设备。

8.4新型存储介质

    3D XPoint;ReRAM;NVMe

8.5近存储计算

    在大数据和云计算时代,海量数据的计算往往伴随着海量数据的网络传输,这使得CPU、网络带宽,甚至内存容量都可能成为系统的性能瓶颈。在这种挑战下,近存储计算(Near Storage Computing)方案应运而生,基本思路就是数据就近计算/处理,即将计算移到存储部件附近或者内部,从而在存储端计算,而无需将海量的数据通过网络或者总线传输到CPU进行计算,从而降低了CPU和网络的负担。

9.基础设施智能化运营与自动化运维

9.1基础设施资源运营智能化

    1)需求预测;2)数据中心机架位容量规划;3)智能制造的发展趋势

9.2基础设施资源交付自动化

    1)通过带外网络实现的远程自动开关机;2)服务器操作系统自动化安装;3)自动化部署遇到的问题及解决方案

9.3基础设施智能监管控

    1)可用性监控分析;2)电热异常感知;3)能效优化

    由于数据中心大多需要复杂的制冷系统设备,再加上目标温度及机房内外环境温湿度等多种参数的制约,数据中心PUE的优化是一个多输入的非线性优化问题。目前业内的趋势是采用机器学习的方法,根据历史数据,用模型来逼近从输入到输出的各种复杂变化。

    PUE优化方案包括深度学习预测模块,人类专家逻辑系统,优化模块等几个大的部分。

    该方案首先获得机房内各个设备之间的专家经验关联知识,建立深度学习预测模型所需的知识库,协助并指导神经网络模型的连接和训练。结合监督学习和无监督学习构建了一个混合学习的神经网络模型。然后利用优化模块对已有关系进行优化,从而得到在不同观测数据和外界环境下的设备设置参数,如冷冻水泵、冷却塔温度等,来达到保证安全生产的同时降低机房PUE。

    系统中也整合了通过深度学习预测模型预测筛选之后的技术专家的能效调优经验,可以协助运维人员调整设备的参数组合。设备调参操作之后的结果将继续被采集和学习,不断迭代的模型更加精确和安全。人类专家逻辑系统中的实际调控经验会作为智能算法模型控制推荐的终极方案,来降低整体运维的风险。

9.4物理机自动化维修

    1)故障发现;2)故障预测;3)故障维修

9.5集群自动化运维

    物理机集群智能自愈系统

9.6网络智能变更系统

9.7无人值守数据中心

10.IDC、网络、服务器一体化

10.1基础设施的最优化匹配

    1)大集群和业务的最优匹配;2)IDC建筑、网络大集群、服务器的宏观优化;3)机架功耗、服务器功耗、网络端口利用率的微观优化

10.2面向业务的一体化解决方案:HPC、超算、AI

10.3系统技术分层与协作

10.4全系统模拟器

11.总结与展望

基础设施目前处于AI、异构、智能化阶段,后续向一体化最优基础架构方向演变,

具有不确定性和革命性的黑天鹅技术:量子计算机

1)量子通信;2)量子计算

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值