运维做的事情集合
一 Linux本身的研究
二 对自己使用的所有工具,进行深入开发:
发布系统(自动化发布)
机器批量管理 (Puppet、Ansible)
LB管理(管理端和Agent端,7层和4层,承接用户流量和内部使用)
主机分配服务(对接云基础设施)
CMDB (资产信息)
Workflow流程平台 (自动化处理日常工单)
三 维护底层基础服务
CDN
DNS (开发管理工具、调整工作模式)
NTP
yum、pypi仓库和打包规范
业务机器初始化服务 (从shell脚本到Ansible,版本管理,可视化)
跳板机
运维管理机+各种小工具(url路径探测、批量操作工具)
ssl证书管理
四 提供基础监控和业务监控服务
1 open-falcon (替代zabbix)
2 logscan (业务日志扫描,报警)
3 告警中心 (所有告警汇总,统一处理)
4 告警媒介 (邮件、短信、电话、IM)
5 radar(雷达) (自动化故障分析寻找root case)
6 看门狗 (网页监控等)
7 degrade (一键降级服务)
8 脚本执行中心 (执行引擎服务)
五 提供运营化工具
1 (公司生产环境运营质量报表)
2 (生产环境事故运营系统+事故处理系统)
六 制定线上机器目录结构和软件安装规范
1 线上操作系统目录结构(软件安装目录、系统日志目录)
2 nginx\tomcat等软件安装、升级规范
3 线上RPM包打包规范
七 系统运维
1(基础设施可视化+基础设施监控)
2 pxe装机服务+ 虚拟化(KVM)+ 每台宿主机上安装一个Agent ==>(云主机)
3 防火墙(网络隔离、防攻击)
4 网络工程师
5 云存储
八 ToDo 和 特殊业务
(这部分都是暂时没有涉及到的)
1 把机器上所有的Agent (全家桶)合在一起
SuitAgent
2 定时任务中心
3 公司级Wiki 和 Task系统
4 Hadoop运维
5 多机房容灾方案
6 公司架构部门组件的运维
zookeeper等
7 预算管理、机器选型、压力测试等
8 开源分布式文件系统搭建、维护 ===> 使用云存储