DevOps 小组运维管理手册

148 篇文章 2 订阅

参考《unix/linux 系统管理技术手册》

组织需求
  • 维护一份开放任务的列表
  • 给自己的任务排列出优先级,并分配资源
  • 向用户和企业沟通任务状态
  • 监视计算环境,包括安全监视
  • 跟踪新出现的技术
  • 拓展 IT 人员的技能
  • 帮助遵守规章制度
  • 编写文档,记录可重复性的过程,可复用的 ansible 脚本最好
  • 及时将自己的文档更新到 gitlab,维护好 devopshandbook运维手册
  • 评测针对协商目标的进展情况,并报告状态
  • 指定容灾规划,并且做好准备
  • 要有足够的灵活性,在让用户高兴的同时也能足够遵守纪律,进而再让管理员高兴
运维规程:

1、不清楚所做的操作会产生什么后果,必须先在测试环境操作

2、关键系统做好冗余、备份

3、准备好容灾恢复计划

4、编写好文档,记录可重复性的过程,可复用的 ansible 脚本最好

5、多人管理的服务器,使用 sudo 账号登陆操作,便于审计

6、定期更换密码

7、ldap + pam 实现认证、授权

8、人员变更,账号删除

9、打补丁、安全检测、升级系统

10、每一个技能最好有 >=2 人掌握

11、每个服务最好有一个第二负责人

岗位和职责

ps: 负责人不是对某项服务出的问题负责,而是当服务出现问题,能够给出服务出错的原因,以及及时修复服务的人

  • 基础服务
服务负责人联系方式第二负责人联系方式运维手册
zentao 项目管理系统zentao手册
gitlabgitlab手册
ldapldap手册
nexusnexus手册
jenkinsjenkins手册
harborharbor手册
sonarqubesonarqube手册
rundeckrundeck手册
cobbler7cobbler7手册
cobbler20cobbler20手册
基础服务监控监控手册
  • openstack
openstack vm 管理负责人联系方式第二负责人联系方式运维手册
平台室openstack使用教程
开发一室
开发二室
开发三室
openstack 集群管理负责人联系方式第二负责人联系方式运维手册
openstack 正式集群openstack使用教程
openstack 正式集群监控openstack监控部署
openstack 备份集群openstack使用教程
openstack 备份集群监控openstack监控部署
  • ceph
ceph 服务负责人联系方式第二负责人联系方式运维手册
rbdceph使用教程
rgw 对象存储
  • gpu 集群
gpu 集群负责人联系方式第二负责人联系方式运维手册
kubeflow
  • k8s 集群
k8s 集群负责人联系方式第二负责人联系方式运维手册
平台室k8s-使用笔记
开发一室
开发二室
开发三室
  • 公有云服务
公有云负责人联系方式第二负责人联系方式运维手册
阿里云
腾讯云
微软云
技能表
技能员工
zentao 项目管理系统
openstack vm 管理
ceph 集群管理
kubeflow 集群管理
ceph rgw 对象存储
k8s 集群管理
jenkins cicd
gitlab 管理
ldap 管理
jenkins 管理
harbor 管理
sonarqube 管理
rundeck 管理
cobbler7 管理
cobbler20 管理
安装系统
配置网络
磁盘 raid
ansible
esxi 管理
openstack image 制作
python
go
灾难恢复

服务等级说明:根据使用人员,使用人数,使用频率,对其它业务影响,进行分级

1级:每天使用人数>=20/使用人员重要/对其他业务影响大&&数据重要

2级:5<=每天使用人数<20

3级:每天使用人数<=4

服务高可用备份恢复方案服务等级
ceph 存储存储服务 3 备份自动1
openstack 私有云maridb 定时备份手动1
zentao 项目管理系统每天备份一次zentao手册1
gitlabgitlab手册1
ldapldap手册1
nexusnexus手册1
jenkinsjenkins手册1
harborharbor手册2
sonarqubesonarqube手册3
rundeckrundeck手册3
cobbler7cobbler7手册3
cobbler20cobbler20手册3
kubeflow1
SLA(Service Level Agreement)

服务等级协议有助于让终端用户和支持人员保持一致

私有云 SLA
  1. 定义

服务周期:一个服务周期为一个自然月。

单实例服务周期总分钟数:按照单实例服务周期内的总天数╳24(小时)╳60(分钟)计算。

实例不可用:当一台设置了出入允许规则的VM实例以TCP或者UDP协议与任一IP地址的双向(出/入)都无法联通,且该状态持续一分钟以上,视为该分钟内VM实例不可用。

单实例服务不可用分钟数: 在一个服务周期内单VM实例不可用分钟数之和。

2.服务可用性

2.1 服务可用性计算方式

VM的服务可用性将根据服务周期,按如下两种维度分别统计每台VM实例的可用性:

(1)单实例维度:

服务可用性=(单实例服务周期总分钟数 - 单实例服务不可用分钟数)/单实例服务周期总分钟数×100%

2.2 服务可用性承诺

(1)对于单实例维度,承诺一个服务周期内VM的服务可用性不低于97.26%;

2.3如VM未达到上述可用性承诺,客户可以根据本协议第3条约定进行投诉。投诉范围不包括以下原因所导致的服务不可用:

(1)任何基础平台室所属设备以外的网络、设备故障或配置调整引起的;

(2)客户的应用程序受到黑客攻击而引起的;

(3)客户维护不当或保密不当致使数据、口令、密码等丢失或泄漏所引起的;

(4)客户的疏忽或由客户授权的操作所引起的;

(5)由于客户所安装软件或者其他非基础平台室的第三方软件或者配置引起的VM实例出现错误;

(6)由于使用时间到期未续期通过导致VM实例被暂停服务或被释放等;

(7)基础平调试提前通知对VM正常维护、升级所引起的短时服务中断;

(8)不可抗力引起的。

3.投诉

3.1投诉标准

(1)对于单VM实例,如服务可用性低于97.26%,可按照下表中的标准进行投诉

服务可用性投诉等级
低于97.26%但等于或高于95%一般严重
低于95%但等于或高于93%比较严重
低于93%十分严重

3.2投诉申请时限

客户可以在每月第五(5)个工作日后对上个月没有达到可用性的VM实例提出赔偿申请。赔偿申请必须限于在VM没有达到服务可用性的相关月份结束后1(1)个月内提出。超出申请时限的投诉申请将不被受理。

4.其他

本云服务器服务等级协议自2020年7月24日生效,平台室有权对本SLA条款作出修改。如本SLA条款有任何修改,基础平台室将提前30天以网站公示或发送邮件的方式通知您。如您不同意基础平台室对SLA所做的修改,您有权停止使用VM服务,如您继续使用VM服务,则视为您接受修改后的SLA。

k8s SLA
工作评价
  • 履行的 SLA 元素的比例或数量
  • 按照系统地不停机时间百分比
  • 圆满解决的工单百分比或数量
  • 工单的平均解决时间
  • 安全时间按照文档规定的时间处理规程处理的百分比或数量
组织架构完善
  • 以工单系统为中心,包括一个咨询组,一个架构组,一个运行组
  • 故障工单系统功能:

开出工单数量

关闭一个工单的平均时间

系统管理工作的功效

未解决工单的百分比

按时间算的解决问题工作量的分布情况

自动分配任务:通过技能数据库匹配

工单状态跟踪

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值