前面两篇文章介绍了在公有云资源申请阶段如何做优化,但随着云资源需求越来越多,需要处理、管控和优化的资源也就越来越多,如果单纯靠公有云厂商提供的云管理能力明显无法胜任,因此需要一个功能更强大的云管理平台来协助做好云成本优化。
一、架构介绍
基于成本优化的云管理平台不仅仅需要资产、费用等CMDB的功能,还需要更多的管理和自动化能力,来更方便的做好云成本的洞察、优化及运营,整个架构如下:

上述基于成本优化的云管理平台涵盖了所有云资源类型、费用账单、资源容量和性能数据,以应用为中心把系统、应用、部门、人和资源关系串联起来,将成本按照实例级维度归属和分摊到系统、应用并对应到各使用部门,支持日、月、年维度的成本数据分析和成本预测等。
二、模型介绍
数据是第一生产力,在当今数字化时代,数据作为一种关键资源,在推动提升效率、创新产品和服务等方面所发挥的核心作用,在云成本优化中,数据同样不可或缺。
1、标签管理
是优化云计算资源使用、提高成本透明度和增强财务报告准确性的重要工具。一般会包括财务维度(成本归属、预算等)、技术维度(所属环境、应用及架构等)、管理维度(人、部门及状态等)以及运营维度(位置、供应商等)。
标签必须在创建资源时就做好,并且需要定期维护,以确保标签的有效性和准确性,通过合理地应用标签,可以更精确地跟踪和分析各个部门、应用、系统或业务单元的云资源消耗情况,从而做出更加明智的预算和资源分配决策。
2、资源纳管
是指对所使用的云资源进行纳管,内容包括资源类型,计费方式,规格型号,版本,所属应用等,可能并不是所有的云资源都有api接口进行纳管,对于这种情况平台需要支持手动录入,确保所有使用的云资源在平台中都有展现和归属。
3、性能管理
一般是指有规格型号的资源,或者是有限定使用量的资源使用情况,比如一台2C/8GB/200GB硬盘的服务器,它的性能数据包括CPU利用率、内存使用率、磁盘使用率等。
性能数据必须保存过去一段时间,方便帮助识别趋势和发现潜在的问题和优化机会。有效的性能管理是一个持续的过程,需要结合技术和管理手段来不断优化其使用,做到稳定和成本的平衡。
4、容量管理
一般是指无限制使用量的资源使用情况,比如云存储、云日志、网络流量以及redis key等资源。
我们需要基于历史数据、增长预测及用户使用习惯等,来洞察容量的实际需求,通过清除冗余及过期数据减少使用。
5、费用管理
是指管理云资源的费用消耗,主要包括哪些资源和服务产生了费用,这些费用是如何分配到不同的应用、部门或业务单元中。
同时也为各个团队或项目设定预算,并持续监控实际支出以确保不超出预算。
三、服务能力介绍
在上一章中规划好了资源和费用模型,数据都进行了纳管,为后续资源的使用、优化提供了非常好的基础,云管理平台的服务能力应涵盖云资源的整个生命周期,方便更好的对资源进行优化。
1、监控告警
主要功能包括异常资源使用和费用告警,比如资源使用率低于5%,资源使用量超过10T,redis的key数量一亿个,单个资源费用超过整个系统50%,当月费用超过上月20%,预估今年云消费超过预算等等,具体设置需根据实际情况进行。
2、自动化
自动化涵盖云资源的整个生命周期,申请阶段需要自动分配更节省的实例(对比同一配置,自动选择最便宜实例)并自动创建,使用阶段需要自动化升降配,生命周期结束需要自动化回收,这些都需要我们建设好自动化工具,做到降本提效。
对于云成本优化的自动化工具,我们后续章节将详细介绍。
3、优化分析
优化分析可以从监控告警触发,用户收到云成本告警后,通过选择各种条件,使用优化分析工具找到成本的根因以及关联关系。
当然优化分析也可以由用户主动触发,通过输入一些条件得出优化建议。
4、优化建议
优化分析后,平台会推送出优化建议,经过审核后进行自动化优化。
有些优化建议并不一定都由系统自动触发,有时会有比较复杂场景,比如系统的成本健康分析,需要衡量该系统成本是否健康,需要了解该系统成本多少,用户量多少,资源使用率等等因素后推出优化建议。
在服务能力中,监控告警、优化分析、优化建议及自动化基本上对成本优化管理是一个闭环。

四、总结
基于云成本优化的管理平台首先需要建设好完善的模型,纳管所有云资源数据,同时提供监控告警、自动化及分析能力,通过云管理平台,方便更好的做好云成本的洞察、优化和运营。

被折叠的 条评论
为什么被折叠?



