参考《unix/linux 系统管理技术手册》
组织需求
- 维护一份开放任务的列表
- 给自己的任务排列出优先级,并分配资源
- 向用户和企业沟通任务状态
- 监视计算环境,包括安全监视
- 跟踪新出现的技术
- 拓展 IT 人员的技能
- 帮助遵守规章制度
- 编写文档,记录可重复性的过程,可复用的 ansible 脚本最好
- 及时将自己的文档更新到 gitlab,维护好 devopshandbook运维手册
- 评测针对协商目标的进展情况,并报告状态
- 指定容灾规划,并且做好准备
- 要有足够的灵活性,在让用户高兴的同时也能足够遵守纪律,进而再让管理员高兴
运维规程:
1、不清楚所做的操作会产生什么后果,必须先在测试环境操作
2、关键系统做好冗余、备份
3、准备好容灾恢复计划
4、编写好文档,记录可重复性的过程,可复用的 ansible 脚本最好
5、多人管理的服务器,使用 sudo 账号登陆操作,便于审计
6、定期更换密码
7、ldap + pam 实现认证、授权
8、人员变更,账号删除
9、打补丁、安全检测、升级系统
10、每一个技能最好有 >=2 人掌握
11、每个服务最好有一个第二负责人
岗位和职责
ps: 负责人不是对某项服务出的问题负责,而是当服务出现问题,能够给出服务出错的原因,以及及时修复服务的人
- 基础服务
服务 | 负责人 | 联系方式 | 第二负责人 | 联系方式 | 运维手册 |
---|---|---|---|---|---|
zentao 项目管理系统 | zentao手册 | ||||
gitlab | gitlab手册 | ||||
ldap | ldap手册 | ||||
nexus | nexus手册 | ||||
jenkins | jenkins手册 | ||||
harbor | harbor手册 | ||||
sonarqube | sonarqube手册 | ||||
rundeck | rundeck手册 | ||||
cobbler7 | cobbler7手册 | ||||
cobbler20 | cobbler20手册 | ||||
基础服务监控 | 监控手册 |
- openstack
openstack vm 管理 | 负责人 | 联系方式 | 第二负责人 | 联系方式 | 运维手册 |
---|---|---|---|---|---|
平台室 | openstack使用教程 | ||||
开发一室 | |||||
开发二室 | |||||
开发三室 |
openstack 集群管理 | 负责人 | 联系方式 | 第二负责人 | 联系方式 | 运维手册 |
---|---|---|---|---|---|
openstack 正式集群 | openstack使用教程 | ||||
openstack 正式集群监控 | openstack监控部署 | ||||
openstack 备份集群 | openstack使用教程 | ||||
openstack 备份集群监控 | openstack监控部署 |
- ceph
ceph 服务 | 负责人 | 联系方式 | 第二负责人 | 联系方式 | 运维手册 |
---|---|---|---|---|---|
rbd | ceph使用教程 | ||||
rgw 对象存储 |
- gpu 集群
gpu 集群 | 负责人 | 联系方式 | 第二负责人 | 联系方式 | 运维手册 |
---|---|---|---|---|---|
kubeflow |
- k8s 集群
k8s 集群 | 负责人 | 联系方式 | 第二负责人 | 联系方式 | 运维手册 |
---|---|---|---|---|---|
平台室 | k8s-使用笔记 | ||||
开发一室 | |||||
开发二室 | |||||
开发三室 |
- 公有云服务
公有云 | 负责人 | 联系方式 | 第二负责人 | 联系方式 | 运维手册 |
---|---|---|---|---|---|
阿里云 | |||||
腾讯云 | |||||
微软云 |
技能表
技能 | 员工 |
---|---|
zentao 项目管理系统 | |
openstack vm 管理 | |
ceph 集群管理 | |
kubeflow 集群管理 | |
ceph rgw 对象存储 | |
k8s 集群管理 | |
jenkins cicd | |
gitlab 管理 | |
ldap 管理 | |
jenkins 管理 | |
harbor 管理 | |
sonarqube 管理 | |
rundeck 管理 | |
cobbler7 管理 | |
cobbler20 管理 | |
安装系统 | |
配置网络 | |
磁盘 raid | |
ansible | |
esxi 管理 | |
openstack image 制作 | |
python | |
go |
灾难恢复
服务等级说明:根据使用人员,使用人数,使用频率,对其它业务影响,进行分级
1级:每天使用人数>=20/使用人员重要/对其他业务影响大&&数据重要
2级:5<=每天使用人数<20
3级:每天使用人数<=4
服务 | 高可用 | 备份 | 恢复方案 | 服务等级 |
---|---|---|---|---|
ceph 存储 | 是 | 存储服务 3 备份 | 自动 | 1 |
openstack 私有云 | 是 | maridb 定时备份 | 手动 | 1 |
zentao 项目管理系统 | 否 | 每天备份一次 | zentao手册 | 1 |
gitlab | 否 | 无 | gitlab手册 | 1 |
ldap | 否 | 无 | ldap手册 | 1 |
nexus | 否 | 无 | nexus手册 | 1 |
jenkins | 否 | 无 | jenkins手册 | 1 |
harbor | 否 | 无 | harbor手册 | 2 |
sonarqube | 否 | 无 | sonarqube手册 | 3 |
rundeck | 否 | 无 | rundeck手册 | 3 |
cobbler7 | 否 | 无 | cobbler7手册 | 3 |
cobbler20 | 否 | 无 | cobbler20手册 | 3 |
kubeflow | 是 | 无 | 1 |
SLA(Service Level Agreement)
服务等级协议有助于让终端用户和支持人员保持一致
私有云 SLA
- 定义
服务周期:一个服务周期为一个自然月。
单实例服务周期总分钟数:按照单实例服务周期内的总天数╳24(小时)╳60(分钟)计算。
实例不可用:当一台设置了出入允许规则的VM实例以TCP或者UDP协议与任一IP地址的双向(出/入)都无法联通,且该状态持续一分钟以上,视为该分钟内VM实例不可用。
单实例服务不可用分钟数: 在一个服务周期内单VM实例不可用分钟数之和。
2.服务可用性
2.1 服务可用性计算方式
VM的服务可用性将根据服务周期,按如下两种维度分别统计每台VM实例的可用性:
(1)单实例维度:
服务可用性=(单实例服务周期总分钟数 - 单实例服务不可用分钟数)/单实例服务周期总分钟数×100%
2.2 服务可用性承诺
(1)对于单实例维度,承诺一个服务周期内VM的服务可用性不低于97.26%;
2.3如VM未达到上述可用性承诺,客户可以根据本协议第3条约定进行投诉。投诉范围不包括以下原因所导致的服务不可用:
(1)任何基础平台室所属设备以外的网络、设备故障或配置调整引起的;
(2)客户的应用程序受到黑客攻击而引起的;
(3)客户维护不当或保密不当致使数据、口令、密码等丢失或泄漏所引起的;
(4)客户的疏忽或由客户授权的操作所引起的;
(5)由于客户所安装软件或者其他非基础平台室的第三方软件或者配置引起的VM实例出现错误;
(6)由于使用时间到期未续期通过导致VM实例被暂停服务或被释放等;
(7)基础平调试提前通知对VM正常维护、升级所引起的短时服务中断;
(8)不可抗力引起的。
3.投诉
3.1投诉标准
(1)对于单VM实例,如服务可用性低于97.26%,可按照下表中的标准进行投诉
服务可用性 | 投诉等级 |
---|---|
低于97.26%但等于或高于95% | 一般严重 |
低于95%但等于或高于93% | 比较严重 |
低于93% | 十分严重 |
3.2投诉申请时限
客户可以在每月第五(5)个工作日后对上个月没有达到可用性的VM实例提出赔偿申请。赔偿申请必须限于在VM没有达到服务可用性的相关月份结束后1(1)个月内提出。超出申请时限的投诉申请将不被受理。
4.其他
本云服务器服务等级协议自2020年7月24日生效,平台室有权对本SLA条款作出修改。如本SLA条款有任何修改,基础平台室将提前30天以网站公示或发送邮件的方式通知您。如您不同意基础平台室对SLA所做的修改,您有权停止使用VM服务,如您继续使用VM服务,则视为您接受修改后的SLA。
k8s SLA
工作评价:
- 履行的 SLA 元素的比例或数量
- 按照系统地不停机时间百分比
- 圆满解决的工单百分比或数量
- 工单的平均解决时间
- 安全时间按照文档规定的时间处理规程处理的百分比或数量
组织架构完善
- 以工单系统为中心,包括一个咨询组,一个架构组,一个运行组
- 故障工单系统功能:
开出工单数量
关闭一个工单的平均时间
系统管理工作的功效
未解决工单的百分比
按时间算的解决问题工作量的分布情况
自动分配任务:通过技能数据库匹配
工单状态跟踪