从去年起接触AWS,开始接触运维行业。别人都是从运维转软件开发,我这也算是不走寻常路。 介绍下我们项目的北京,我们是从无到有的构建自己公有云环境。在这之前团队成员都没有运维相关经验。开始摸索之路后,主要基于以下几点构建运维能力:
1、系统监控防护能力
亚马逊的天然优势就是集成众多服务,在监控方面亚马逊的服务是cloudwatch。通过cloudwatch监控EC2、RDS、Redis等服务基础指标,然后根据业务需要,定制个微服务节点的监控指标。实现全方位运维监控。这部分的业务监控指标,值得说明,本身就是个devops的过程。通过不断记录,逐步完善。
2、用户体验分析
这部分刚开始起步做的比较简单。作为云服务运维,这部分也一直被推崇为运维行业的增值点。让运维从幕后走向台前。这部分基础使用的工具大家也都比较熟悉——ELK。这个基本概念就不用给大家介绍了。由于整个团队运维人力有限,当时做了一个最基础版本。没有数据采集,数据都是导入到ELK上做结构化,然后进行分析。最基础的就是分析服务请求,分析上线用户数,最活跃租户,最活跃服务。今年部署了全新版本,基于filebeat采集数据,实现了用户数据的实时分析。这部分本身对故障定界也有关键意义。日志数据本身就有很多方面的价值。
3、故障定界