阿里巴巴云计算基础设施实践--读后感

这是博主工作闲时的一些日常学习记录,有些之前很熟悉的,但工作中不常用,慢慢就遗忘了,在这里记录,也是为了激励自己坚持复习,如果有能帮到你,那我将感到非常的荣幸~

第一章 基础设施架构综述

如果说数据是信息时代的血液 那么这些数据的计算 存储和传输提供服务的躯干就是基础设施。随着云计算的发展 基础设施及服务iaas 正在将这些互联网基础设施变成全社会的基础设施。

其中阿里基础设施技术分层主要分为技术中心 基础技术 调度平台 计算 存储 网络和DC大脑。基础设施作为技术发展领域的驱动力,而衡量基础设施的竞争力的性能指标很大程度上是计算/存储能力。从基础设施技术价值看有四个方面 一是基础价值 二是架构价值 三是业务价值四是成本价值即TCO。追求稳定性 性能 成本的平衡,同时也要追求效率标准化和规范化。

总结起来,基础设施的技术分层及各个领域技术的核心竞争力特征如下: 1.大规模可扩展的数据中心 2.架构简单高速的物理网络 3. 规模化 一体化规格收敛的服务器 4. 可软件定义的虚拟化解决业务灵动问题 5. 调度系统解决资源的利用率问题 6.DC大脑智能化解决运维问题

第二章 TCO

TCO total cost of ownership 直译过来就是总拥有的成本。 TCO是技术进步的重要衡量指标 系统的管理TCO当然也需要科学系统的方法,本章将会对TCO建模进行一个详细的概述。影响TCO的因素不光是技术因素 也包括了很多非技术的,要打破服务器,网络,IDC等的局限。而TCO模型分为静态和动态两种。

静态是指在某个特定情况下的成本情况,主要是由固定投资及运营成本构成。服务器的固定成本在生命周期TCO中占比最大,其次是电费,而电费远超其他基础设施的占比,而努力提高能效和降低PUE则是实现IDC成本下降的关键路径。最后静态TCO其实是一个成本数据,实际上更关注的是单位成本下其基础设施所承载的业务能力(即单位产能,产能可以指存储能力 又可以指网络转发能力 )。

而动态TCO模型则是能脱离单一区域的限制,从财务的角度分别计算各领域的固定成本,按照既定的折旧模型加上运营成本计算,每年数据中心整体拥有的成本。在满足业务性能的要求下,做到总体TCO最优,不仅需要考虑到物理成本,运维成本还要关注资源利用率 ,弹性,扩容效率和能力以及容灾成本等全链条综合因素。哈哈哈,后面主要是推荐用户使用阿里公有云,无论大小用户都能享受到两地三中心,云备灾,高弹性等技术能力,还能做到最优TCO。

第三章 数据中心能效

能效是数据中心技术水平的重要衡量指标,本章主要从以下三个指标分析:数据中心电能利用率、数据中心服务器电能利用率、数据中心基础资源利用率。

其中,数据中心电能利用率(Power Usage Effectiveness PUE)是公认的最重要的衡量指标。PUE=(市电输入+储存-无关)/IT设备用电。其中除了IT设备耗电第一,散热系统的耗电也不容小觑,一般有三种方式:冷源(高效设备、合适工况、延长自然冷、管路布局)、末端(盘管+风机(离心、轴流、混流)、CRAH精密空调)、智能控制。除此之外也需要关注供电系统、采暖系统、通风系统等选取合适的方案。

降低PUE并不意味着整个数据中心能效就高了,温度升高,IT损耗变高了也会影响PUE,所以引入SPUE的概念,着重关注到服务器电源和风扇的效能。

基础设施使用率IUE主要根据IT负载评估和确定基础设施资源要素使用率是否低下。主要从以下五个方面评估:电量供应、电量分配、制冷量、冷却流量及机架U位数量。总而言之,对于效能的评判还是需要从多角度多维度因地制宜深入考虑。

第四章 数据中心

  1. 数据中心面临到如下的挑战:中国能源供给结构对其影响、新政策环境下面临的技术升级、云计算业务对其的机遇与挑战。
  2. 演进路线和发展趋势:单体和大规模的中心逐渐增多的同时也不断淘汰中小型中心,能耗方面也在互联网巨头的推动下,越来越多地使用绿色新能源,也从传统的风冷技术逐渐走向液冷技术。而阿里巴巴数据中心趋势是:提高硬件功能密度、提高本身供电效率、新能源和清洁能源的使用、未来也会涉足核能技术、余热回收、智能微电网技术等。
  3. 数据中心能源与供电技术:阿里千岛湖数据中心 太阳能+240V直流电源 张北 光能+风能 与国家电网合作研发柔性支流技术 同时充分利用余热发电 采用智能微电网实现自动监视、控制的同时,具备自动学习、预测管理和联合调度等的功能。
  4. 阿里供电实践:不同颗粒度提供不同的不间断的供电方式。柴油发电机-数据中心、大功率UPS/HVDC-包间、小功率UPS/HVDC-机柜、电池组BBU-服务器、超级电容-服务器电路板。同时也尝试用分布式电源和储能系统代替UPS(不间断电源)系统。阿里自主研发240V+PSU集中供电系统,并在此供电方式上推出了广受好评的天蝎BBS。
  5. 制冷技术是保障IT设备稳定运行必不可少的基础设施。规模不大的可以采用 ”风冷直接膨胀式DXA”,但如果室内机和室外机的距离较长会有一定影响,“水冷直接膨胀式空调系统“可以解决这个问题,但也会出现对水资源的依赖,可以用”风冷式冷冻水式空调系统“解决数据中心规模大和水资源短缺的问题,但水资源充足的情况下大型数据中心可以使用”水冷式冷冻水式空调系统“,电力资源不足的话,可以使用”吸收式制冷系统“的天然气电动机发电、发电余热吸收、数据中心冷热电三联供的方式解决这个问题,当然也可以利用”自然冷源系统“。
  6. 当设备功耗越来越大,特别是在GPU的场景下,单机架构的功耗密度已经超出风冷散热能力极限的趋势,所以不得不考虑其他的冷却技术。例如液冷技术:冷板式液冷技术(间接式)、浸没式液冷技术(直接式)。
  7. 介绍了阿里采用杭州千岛湖的数据中心依靠千岛湖水自然冷却和张家口市张北县依靠自然风自然冷却等因地制宜的冷却技术。

等等,可以看出阿里对电池技术、电源技术、高效供电等方面一直不断的投入研发。之前我一直认为云计算、数据中心等理念是近几年出现,对阿里的印象一直停留在淘宝、云服务、支付宝等业务层面,没想到在数据中心一几年就很普遍地建设了现在政策都开始限制数据中心PUE,而阿里不仅是一个商人,也是一个对技术精益求精的追求者、开辟未来道路的探索者等等。看来还得好好阅读,少玩手机娱乐,才能开拓眼界,提高认知。

第五章 数据中心网络架构和关键技术

本章的网络架构和关键技术针对典型的大型互联网和云计算公司。超大规模数据中心,相较于传统的数据中心二三层混合设计,选择网络集中在Unicast和三层路由大幅简化网络功能和协议,也催生物理网络架构从分层模块化设计转向了横向可大规模扩展的CLOS架构。

结合阿里实际情况,预测数据中心发展趋势:
1.网络带宽持续演进,芯片为核心竞争力;2.硬件白盒化、OS开源、软件自主掌控;3.软硬件一体化的高性能网络转发:网卡硬件卸载和可编程芯片;4.网络融合成为一体化数据中心的I/O:低延时网络;5.网络可视化技术,基于大数据和人工智能的智能化运维;6.光互联;7.节能绿色网络。

目前阿里巴巴数据中心网络架构是HAIL即高可靠、高智能、低时延 也可以说是高可用性和可靠性、弹性扩展、高性能网络、降低成本。

阿里设计理念:首先要清楚核心目标就是如何赋能计算和存储的,给用户带来价值,并非一味追求技术先进性。其次,还要考虑IDC物理机房的资源布局和建设周期,网络架构的生命周期和IDC的建设周期最好同步规划,否则会造成机房资源控制或者无法及时享用新技术红利。最后才是要考虑到网络架构设计的可用性、效率、性能和成本之间的最佳平衡点。

总的来说数据中心架构设计大体上要考虑:网络元素、物理互联、高性能网络协议、虚拟网络和智能化运营。

阿里数据中心自研交换机,它的交换机网络操作系统是基于SONiC的AliNOS,不仅如此阿里巴巴也一直在网络设备硬件方面积极投入自主研发,例如:Fishbone(是ASW交换机的阿里巴巴的内部代号),Phalanx(是阿里巴巴自研的128X100Gbit/s交换机代号)。

传统的网络技术给大规模部署的数据中心网络带来了挑战,基于VXLAN的Overlay网络虚拟化技术成为大规模数据中心和云计算公司的必然选择。而Overlay网络架构在实现方案上可以分为Overlay、主机Overlay两种方案。区别在于网络Overlay是在接入交换机上进行VXLAN报文的封装和卸载,而主机Overlay可以直接在主机上完成方案。但一个消耗的是交换机的高转发能力,另一个则是消耗主机CPU。综合所有利弊来看,推出“智能网卡”实现主机Overlay,既节约了主机CPU资源,又能采用SP-I/OV直通技术和VM通信收发报文,同时还能实现高性能、低延时的同时消除抖动。

数据中心光互联技术:1.ASW和服务器的互联 (DAC:国外较多 AOC:国内较多) 2.交换机之间的互联(光模块和光纤) 3.交换机和路由器、交换机和OTN设备及路由器和OTN设备之间的互联(光模块自研)。

数据中心网络协议和高性能网络
数据中心网络互联协议可以分为两个部分:1.交换机之间的网络互连协议(OSPF BGP(主流) 阿里“上行路由不回转”路由收发规则,“两级处理” 实现路由量收敛) 2.交换机和服务器之间的网络互联协议(阿里提出“去堆叠技术”彻底消除因堆叠架构短板所带来的故障风险)。
高性能网络:RDMA(Remote Direct Memory Access)技术满足在海量数据访问下,网络带宽、延迟和可用性也能得到满足。而他其实是一种硬件I/O技术,RDMA设备将网络传输协议固化于硬件,通过内核旁路实现了CPU和零拷贝,从而极大地降低了网络传输的延时,能帮助应用程序更加充分地利用网络带宽。(条件:无损的网络传输和支持PFC、ECN两种特性的交换机和网卡。)

高性能网关:阿里巴巴主要分为两类:基于服务器于DPDK的高性能软件网关平台和基于可编程交换技术的具备极限交换性能的硬件网关平台。其中DPDK是Intel和6WIND合作的一个高性能数据包处理工具。而基于X86高性能软件网关平台Netframe就是基于Linux上开发的基于DPDK的高性能转发平台。

网络可视化技术:阿里的可视化技术是基于交换芯片能力定制化开发的全新网络资源水位的数据化采集和分析技术。前端技术:主要指在交换机侧或网卡侧,直接获取报文或流的转发质量数据。后端技术:主要指可视化数据的收集、预处理、分类、汇总、判断和展示的整体软硬件平台。

城域网光传输技术:核心目标是以低成本来提供高带宽、低延时,以及可扩展的网络互联,可以看成数据中心网络的延伸,阿里部署了两种城域网的架构:Full mesh架构(简单直接,网络时延最优,不易扩展)和CLOS架构(支持水平扩展)。

第六章 服务器技术

服务器是面向最终用户提供计算和存储资源,且在数据中心的整体TCO中占比最大。服务器是指具有高计算能力,能够通过网络提供多个用户(包括企业、组织、个人)使用的计算机。按照体系架构区分,主要分为x86服务器和非x86服务器。其中服务器行业生态结构特别的是OEM和ODM的存在。其中,OEM:指受托厂商按委托厂商的需求与授权来生产,产品品牌属于委托厂商,例如:Dell、HP、曙光、联想等;ODM:指受委托厂商的规格需求和方案要求,进行产品设计和生产,白牌产品直接交付终端用户,例如:广达、英业达、富士康等。

现目前服务器面临的挑战有:性能、故障应对、交付保障和效率、硬件安全。而设计服务器主要考虑的是:计算能力、存储及I/O能力、网络、机柜、散热供电等外围支持。服务器主板是服务器整机最基本也是最重要的部件,其主板主要由CPU模块、I/O芯片组模块、BMC模块组成。

其中BMC模块是独立于服务器OS之外的小系统,即使OS宕机,也可以通过BMC模块侦测当前服务器状态。而主板中另一个非常重要且独立的系统BIOS(基本输入输出系统)是一种集成在服务主板Flash ROM中的固件。其主要功能服务器远程开关机功能、服务器状态监控、服务器远程KVM功能和服务器远程SOL功能。

服务器按结构形态分为以下五种。1.塔式服务器也是经典的台式服务器 2.机架服务器与交换机形态类似 3.刀片式服务器 每一块刀片实际上是一块系统模板 相当于一个独立的服务器 共享供电和散热设计 内置交换模块 4.多节点服务器 同样采用共享供电和散热的设计方式 但是没有内置的网卡 5.整机柜服务器 主要有ODCC OCP Open19。

服务器硬件监控体系主要提供了以下三个方面的能力 1.服务器软件故障诊断和告警 2.服务器容器和性能监控 3.服务器硬件故障预测和预警。

服务器测试及性能评估体系应该从功能 性能 能耗 稳定性4个方面出发。
阿里从最初的IOE(I ibm p系列小型机 操作系统是AIX ibm专有的unix系统 O oracle数据库 E EMC 中高端SAN存储)时代 转型到现在的x86服务器+分布式系统。

随着通信技术的飞速发展 现在信息产业界尤其是互联网行业的资源数据处理集中化程度不断加大 目前几乎所有的巨型企业都在构建一个完整的分布式的系统平台 向用户提供服务 易异架构分布已经成为平台网络的基本特征。而传统的互联网体系只强调了计算能力 没有考虑安全防护。

而阿里从可信计算、可信执行环境、内存安全、构建完善的硬件安全体系 去解决此问题。而其中可信计算的原理则是在计算机系统中构建一个信任根 然后再建一个信念链 再从信任根开始到硬件平台的操作系统 再到应用。

而可信任执行环境的主流技术分别有 trust zone 、txt、sgx。而内存安全传统的都是由CPU去处理,而新的内存安全方案则是提供硬件及内存保护机制 使得应用者可以不必完全依赖于CPU实现与内存直接沟通 就比如国外英特尔提出的SGC技术。而SGC技术是针对应用程序的地址空间。如何构建完善的硬件安全体系,可以通过量子通信和可信计算的融合 在密钥管理这种高敏感业务系统中。

  • 25
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值