作者简介:周锋、丘子隽,平安云平台事业部云网络服务组技术专家
本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请[订阅《程序员》]
导读:本文将介绍平安云的日常运维管理,工具研发与最佳实践,希望对从事云计算服务的读者有借鉴意义。
平安云简介
平安云隶属于中国平安保险(集团)股份有限公司,依托平安集团构建的金融及健康IT生态圈,为银行,证券,保险,互联网金融及医疗健康类机构提供按需付费,高可用,高弹性,安全合规的云计算服务。结合金融及健康业务在系统,合规以及数据方面的特性,平安云除为客户提供开发,测试,生产,容灾在内的全套基础设施服务外,还提供定制化金融IT解决方案。
从13年底立项以来,平安金融云一直尽可能走开源和自研结合的路线,自主研发了IaaS层的全套产品线,为金融行业客户提供可靠、弹性、高效、集约的基础架构层服务。
日常运维管理
基于ITIL的流程管理
多数企业的日常系统运维都是遵守ITIL体系。云计算改变了资源交付与运维资源的方式,云平台本身也是新的运维对象,需要控制风险,解决事件,跟进问题,管理平台资源池的容量。
平安云承担了一部分企业基础架构的角色。如图1,为了满足金融企业的高合规特征,平安云的运维严格遵守ITIL流程,按照平安科技的制度规范要求实施变更,事件,问题,业务持续计划以及容量管理。
包括已经通过工具自动化的操作,所有的生产区变更都需要经过每周两次的内部变更评审会议授权后才可以触发工具实施。对于网络等全局性的变更更是需要提交到重大变更评审系列会议获得高级主管审批后方可授权执行。
同时,由于业务的快速转型需求,运维对象与运维内容的变化也越来越快,因此在传统的ITIL风险控制流程之上,我们借助开源或自研开发了很多运维辅助工具。另一方面,在业内去IOE、分布式系统的背景下,大量采用了供应商竞争激烈、通用的Server,通用Server的单机可靠性要比以往的专用小型机等服务器有所下降,但业务通过分布式部署后反而提升了整个应用的可靠性。,因此单一的物理资源可靠性指标的集合并不能有效地衡量IT服务可靠性,而需要从上层服务的整体可用指标来实施创新与衡量服务可靠性,这个转变对金融技术转型来说尤为重要。
平安云引入了SRE运维云平台系统,总结来说中心思想有两点:1.从软件或架构层面分析问题解决问题,避免引入人的工作或影响,2. 所有必需的操作都要有工具支撑,避免随着底层操作对象资源的增加而增加工作人力。这个思想并没有违背ITIL理念,从我们的实践经验分析,SRE可以作为ITIL新时代的工具,良好地融合后可以有效地支持金融业务在云上的可靠性。
门户自助资源交付与责任共担体系
平安云作为平安集团基础架构的延伸,首先希望能够实现下面的目标:
- 运营或业务用户可以直接自助申请资源,分钟级交付。并进一步实现快速扩容能力。
- 各个应用专机专用,消灭应用间的交叉影响。
- 在云门户上实现权限控制,各应用的所有者对自己的主机有完全的管理权,在拥有root权限之上更能自主poweroff/poweron主机。
在传统的大物理机环境下,会出现多个业务应用共享一台高性能主机。