云计算底层架构挑战(二)

云场景的底层软硬件挑战

3.1 业务异构加速

我们分析一下用户业务从无到有再到大规模发展的过程中对云主机的需求。一开始的时候,可能并不清楚要运行的业务具有什么样的特征,这样通用的以CPU为计算核心的通用云主机会是比较合适的选择。随着业务的进一步开展,业务场景相对稳定以后,用户对自己的业务也非常熟悉了之后,用户可能会倾向于针对不同的业务选择不同的主机类型,例如针对HPC选择计算优化型,针对大型数据集处理选择内存优化型等等。进一步的,不仅仅业务场景固定,并且计算资源的规模足够大,就有了进一步通过硬件加速来提升性能并且降低成本的诉求。

随着人工智能技术的蓬勃发展,基于GPU加速的机器学习训练及推理得到大规模应用。GPU加速当前主要应用的领域有机器/深度学习、高性能计算、计算流体动力学、计算金融学、地震分析、语音识别、无人驾驶汽车、药物发现、推荐引擎、预测、图像和视频分析、高级文本分析、文档分析、语音、对话式代理、翻译、转录和欺诈检测等。

基于FPGA的加速,因为能够定制加速核心的设计,一般相对GPU来说,具有更高的加速效率,缺点在于硬件编程的技术难度和工作量。因此,基于FPGA的加速主要是以FaaS(FPGA as a Service)平台的模式出现,由Xilinx、Intel或其他供应商提供底层的FPGA软硬件支持,把FPGA封装成标准的平台,一些第三方ISV基于标准的平台开发针对一些主流应用场景的特定的加速核心。在云计算数据中心大规模服务的支持下,FaaS既有了硬件加速的高效,又有了云计算的弹性特征,因此在一些特定领域得到广泛的应用。

异构加速的实现架构是CPU+GPU/FPGA,主要由CPU完成不可加速部分的计算以及整个系统的控制调度,由GPU/FPGA完成特定任务的加速。这种架构面临一些挑战:

l 可加速部分占整个系统的比例有限;

l 因为数据来回搬运的影响,很多场景整体加速效率不明显;

l 额外的GPU/FPGA加速卡导致成本增加;

l 异构加速引入新的实体,计算由一个实体完成变成两个或多个实体协作完成,这导致整个系统复杂度增加;

l GPU、FPGA都有很多种不同的平台,例如NVIDIA GPU的CUDA、Xilinx FPGA的SDAccel、Intel的Accelerator Stack等,这对云计算的硬件成本及运维管理形成挑战;

l 虽然底层软硬件供应商已经为自己硬件平台封装了非常强大并且用户友好的开发和应用框架,但当面对一个新领域的时候,底层距离业务级的用户还是太远,用户自己开发底层软硬件的难度依然很大。

3.2 工作任务卸载

在虚拟化的架构里,系统简单的可以分为两层,Guest层和Host层,Guest层是用户业务层,Host层是后台管理层。Host层的主要工作任务是虚拟化管理、IO的后台处理以及相关的监控、操作和管理等。

在这些Host层的工作任务里,最消耗CPU资源的是IO后台工作任务的处理,如网络的VPC、分布式存储等。Intel在Xeon CPU上做过网络OVS的性能测试:64字节数据包流,消耗四个CPU内核,通过DPDK加速的OVS,最佳性能是8-9 Mpps,带宽为4.6Gbps。随着网络带宽逐渐升级到25G、50G甚至100G,DPDK加速OVS的CPU开销将无法承受。将10-15个甚至更多的CPU核专门用于数据包处理,意味着没

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值