金融企业云平台自动化运维之路

 总结2023年工作成绩。

作为云平台自动化团队,我们为公司提供了一系列服务和产品,确保云平台的合规与安全,并提升用户的上云体验

我们的其中一项工作是为云平台用户提供技术支持服务,包括创建云环境和授权。由于云平台不能为每一个云产品提供权限隔离能力,过去,每个月都有数百个技术支持请求需要云平台团队手动处理。我们通过自研软件产品解决了权限隔离问题,提供自助服务API赋能用户自助完成所需要的服务。

通过标准化运维工单、自动化和赋能自助化,云平台团队技术支持工单数量下降了70%,为用户的需要提供更快的响应

除了自动化开发提供合规、安全、友好的云平台外,我们还不断改善开发体验和生产运行环境,包括对日常任务进行容器化改造和引进Airflow,实现DevOps交付能力和引进更先进的任务编排平台。我们把 SonarQube 和 Checkmarx嵌入到 CI/CD 管道,以提高代码质量并实现 DevSecOps。我们的创新技术产品获得了业务合作伙伴高管的认可,他们有意采购我们的产品作为他们的产品之一。

01

基于优异研发能力的主要成绩

运维请求自动化——更少的人力成本和更好的用户体验

  • 通过标准化操作流程,实现自助服务和自动化,手动运维的工单数量减少了 70%

    这里包括我们把用户请求技术支持的所有工单进行了梳理和分类,归纳了多种工单类型,并为大部分工单类型编写了标准化操作流程。有了这些流程,即使是新人来到团队,都能立即开展工作。这些标准化操作流程也是自动化的基础,所谓自动化就是把标准化操作流程通过程序实现。

  • 为用户提供自助服务API来代替手动运维操作——每月减少 43% 的手动运维请求和数千分钟的操作工作,并使用户的请求得到立即响应

    由于云平台不能为每一个云产品提供权限隔离能力,有些权限必须掌握在云平台团队手上。用户的一些操作或授权,只能通过向我们提交工单,然后我们手动进行处理。过去,每个月都有数百个这样的请求。

    我们自研的API 服务提供了用户鉴权能力,也就是知道某个登录的用户对哪些用户云环境有权限,这样我们便可以把一些没有鉴权能力的平台API通过我们的API 服务安全地开放给用户,从而让用户可以调用这些API实现自己所需要的操作。用户请求所需要等待的时间由原来最长需要5个工作天变成几分钟

  • 创建新环境流程自动化——自动执行部分手动操作,每个新云环境创建所需要的时间减少至少 40 分钟

自研上云门户网站——更好的云平台之旅

  • 自研的上云门户网站帮助用户登记上云信息,获得更好的体验。它自动生成与集团其它内部管控系统和流程集成的可信数据,并提供实时的上云数据和仪表板。

  • 云环境网段分配集成到上云门户网站为每个新的云环境创建过程节省 0.25 人日,并实现废弃环境的网段可回收。

  • 监管备案流程集到上云门户网站为云团队和用户团队节省了 0.25 FTE,并支持创建链接追溯云上系统清单中的源系统,简化向监管单位提交上云系统报备过程,提高数据准确性,并把报备过程所需要的时间缩短 50%

合规自动化——保护云平台

  • 对合规检查程序和其它日常任务程序进行容器化、引进和改造 Airflow,实现 DevOps 交付能力和引入更先进的任务编排平台

    我们在云平台上每天运行着大量定时任务。Airflow是开源的、功能丰富的任务编排平台,它可以提供定时任务、事件驱动任务和任务链的编排能力。

    除了Airflow本身的能力,我们还对它进行了二次开发,实现了单点登录、特权访问管理和双活架构,满足我们的非功能性要求。

  • 提供了一系列基于合规部署模式和安全要求的合规检查程序和漏洞检查程序,并提供实时仪表板,及时向用户报告违规行为

  • 提供包含了合规部署模式和安全要求的 Terraform 共享模块,供用户创建合规的云资源并提供基础设施即代码 (IaC) 的能力实现自动化

平台API自动测试框架——为平台升级保驾护航

  • API 自动测试框架每晚运行以监控云平台 API 的运行状况。

  • Terraform 测试每天运行,以监控 Terraform 共享模块的稳定性。

构建 DevSecOps 模式——以更高效、更安全的方式交付

  • 自研SDK,简化调用平台API的开发代码,提升开发效率。

  • CI 中集成了静态代码质量扫描和 Checkmarx,以提高代码质量并实现 DevSecOps

  • 简化变更申请合规材料提交过程,为每个变更请求的准备节省 0.5 人日,以实现更频繁的发布。

  • 自动化运维变更请求的准备流程。每天运维变更请求的准备时间从 10 分钟缩短到几秒钟

  • 自动化发布使我们能够在无需人工交互的情况下对每个用户故事进行单独发布,实现按需持续发布

02

如何满足业务需要?

我们通过自动化研发和技术支持提供的服务和产品,都是为了满足业务和用户的需要,包括以下几个维度:

  • 客户方面——运维请求自动化、上云门户网站为用户提供更好的上云体验。

  • 行为方面——合规自动化检查引导正确的用户行为,以确保云平台的合规与安全。

  • 变革方面——DevSecOps 模型提高了开发人员体验和交付效率。所有自动化和自助服务都改善了用户的上云体验,促进用户对云的拥抱。

  • 文化方面——DevSecOps 模型使团队拥抱 DevSecOps 文化。所有自动化和自助服务都改善了用户的上云体验,促进用户对云的拥抱。Terraform 共享模块促进基础设施即代码 (IaC) 的文化。

03

感谢团队

所有这些成绩,都是团队的贡献。我非常幸运,拥有这样的团队:

有成员持续地为团队引入新的技术和工具,创造高效、规范的开发环境;

有成员的全栈开发速度是我从业二十多年来之未见,我估计要做好几个星期甚至几个月的事情,他可以几天内又快又好地完成;

有成员在工作过程中遇到坑会钻研问题的根源并提出解决方案,避免团队再次踩坑;

有成员会在已分配的工作以外,主动解决技术债,为团队和用户提供更好的服务;

有成员能很快地离开舒适区,在原来擅长的手动运维工作基础上,学习开发技能,并成功转型成为软件开发者。

bfea53db2855b2b85133615fffc1f4a0.jpeg

过去几年,我们在自动化这一块硕果累累。未来我们将探索智能化之路。

觉得文章不错,顺手点个“点赞”、“在看”或转发给朋友们吧。

f49acb8f1aff5835ac90b245ca1fd3c8.png

2023年文章汇总:

我们实现OKR的秘密武器是什么呢?

这是真的“技术驱动”的公司吗?

什么?PO也要关注系统稳定性?

一次成功游说的三板斧

软件技术奇葩说:速度与稳定性哪个更重要?

如何实现具备韧性的技术与架构?

云产品的RTO、RPO之谜

效率真的越高越好吗?——如何让低效率为我们服务

关于作者


975b800c9a952c205abf4368fc150ec8.jpeg

关注公众号看其它原创作品

坚持原创高质量软件交付相关文章

觉得好看,点个“点赞”、“在看”或转发给朋友们,欢迎你留言

  • 20
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值