A. 运维体系 --- Devops

A. 运维体系 — Devops

能力成熟度划分

  • 初始级:在组织局部范围内开始尝试DevOps活动并获得初期效果
  • 基础级:在组织较大范围内推行DevOps实践并获得局部效率提升
  • 全面级:在组织内全面推行DevOps实践并贯穿软件全生命周期内获得整体效率提升
  • 优秀级:在组织内全面落地DevOps并可按需交付用户价值达到整体效率
  • 卓越级:在组织内全面形成持续改进的文化并不断驱动DevOps在更大范围内取得成功

过程 — 敏捷开发管理

  • 价值交付管理
    • 需求工件:对需求和用例的管理
      • 需求内容与形式
      • 需求测试用例编写
      • 需求测试用例验证
      • 需求测试用例管理
    • 需求活动:需求分析、需求验收两个部分
      • 需求分析协作:需求分析是各个角色沟通协作形成需求用例或用户故事,并细化的过程,协作 过程中各角色深入持续参与;
      • 需求管理方式:需求分析后的用户故事应包括用户需求所涉及的所有事项,统一管理并按照业 务价值由高到低排定优先级,并依据其形成产品研发路线图;
      • 需求验收的频率:指不同角色对需求功能验收的频率,频率越高效果越好;
      • 需求验收的范围:指需求验收应尽量具备有业务价值的端到端的验收;
      • 需求验收的反馈效率:指需求验收的结果准确、快速的反馈到开发团队的过程的效率。
  • 敏捷过程管理
    • 价值流:价值流是指产品经理、研发团队在软件研发过程中将软件产品转化为业务价值的能力
      • 交付与需求:指价值交付过程中提升交付节奏和效率的措施。
      • 交付质量:指产品价值交付的过程中,需要控制价值交付质量。
      • 交付反馈与度量:指建立了对价值交付的反馈机制。
      • 价值流动:从产品价值交付角度,通过交付速度、频率等度量指标的优化,不断提升交付的效 率,实现开发任务的拉动式管理。
    • 仪式活动:通过建立价值流动的管控机制,可视化地管理价值流动,控制流动节奏,建立反馈机制,不断提升 价值交付效率。包括各类计划会议、评审会议等。
      • 交付计划:是指需求任务和产品增量的实现计划。
      • 交付活动:为了能快速有效的交付业务价值,而进行的相关会议、评审等活动。
      • 人员组织:是在仪式活动中团队组织的形态要求,合作方式。
  • 敏捷组织模式
    • 敏捷角色:主要是指产品经理、团队、敏捷教练等角色间的职责分工、能力提升、协作方式,角色都 能以价值交付为目标,持续提升交付效率。
      • 角色职责:定义在敏捷团队中的不同角色及职责。
      • 角色能力:对团队成员角色能力的要求。
      • 角色协作:定义了团队内外不同角色间的工作协作模式和要求。
    • 团队结构:在研发过程中以最小化的功能团队,以共同的价值观,通过可视化的方式,紧密合作,实 现业务价值的快速交付。
      • 团队组成:定义团队角色组成,核心是强调价值交付的最小实现单元。
      • 团队工作模式:用敏捷的工作模式管理团队,形成一致的约定、目标和价值观。
      • 团队间协作:重点描述敏捷团队间协作完成价值交付,强调计划对齐和有节奏的交付。

过程 — 持续交付

  • 配置管理:是指所有与项目相关的产物,以及它们之间的关系都被唯一定义、修改、存储和检索的过 程,保证了软件版本交付生命周期过程中所有交付产物的完整性,一致性和可追溯性。
    • 版本控制:是指通过记录软件开发过程中的源代码、配置、工具、环境、数据等的历史信息,快速重 现和访问任意一个修订版本。
      • 版本控制系统是指通过记录一个或若干文件内容变化,能够查阅特定版本修订情况的系统。
      • 分支管理是对软件研发过程中的分支和集成策略的管理,分支策略代表了研发协作方式。
      • 制品管理是对软件研发过程中生成的产物的管理,一般作为最终交付物完成发布和交付。
      • 单一可信数据源是一种信息数据模型和关联模式,保证每个数据元素只存储一份,确保数据的一致 性。
    • 变更管理:指软件系统中的所有变更都可追溯变更的详细信息记录,并 转过程等所有关联信息
      • 变更过程是变更的触发条件和实施手段,覆盖变更的完整生命周期。
      • 变更追溯是变更相关信息和状态的识别和查询,包括变更人员、变更时间、变更原因、变更内容等。
      • 变更回滚是将变更恢复到变更之前的状态的过程。
  • 构建与持续集成
    • 构建实践:构建实践关注软件代码到可运行程序之间的过程,通过规则、资源和工具的有效结合,提升构建质 量和构建速度,使构建成为一个轻量级,可靠可重复的过程。
      • 构建方式是源代码转变为可运行程序的方法和过程。
      • 构建环境是构建实际运行过程的设备和资源依赖的载体。
      • 构建计划是构建被触发的方式,频率和编排过程。
      • 构建职责是整个构建相关工具,系统和过程的责任主体。
    • 持续集成:是软件工程领域中的一种最佳实践,即鼓励研发人员频繁的向主干分支提交代码,频率为至少每天一次。
      • 集成服务是指持续集成运行的系统和环境,以及集成团队的职责划分。
      • 集成频率是指研发编写的源代码向代码主干分支合并过程的方法和实施频率,是持续集成的核心指 标和参考能力。
      • 集成方式是代码集成的触发条件和集成过程中的环节及输入输出。
      • 反馈周期是集成过程中出现的异常状态通知到人为处理的时间周期,以及将集成状态恢复到正常状 态的过程时长。
  • 测试管理
    • 测试分层策略:测试分层策略是建立一种分层的测试体系,把测试作为一个整体来规划和执行,并融入到持续交付 的各个阶段中,达到质量防护的目的
      • 分层方法是测试体系按照不同的测试对象,类型进行分类聚合的方法,每一层对应了特有的测试需求。
      • 分层策略是指基于测试分层策略对每部分的测试比重和投入,以及覆盖度等的划分策略。
      • 测试时机是指测试接入软件研发过程的时间点和参与形式以及期望结果。
    • 代码质量管理:代码质量管理是在软件研发过程中保证代码质量的一种机制,当代码变更后,可以对代码质量进行 检查、分析,给出结论和改进建议,对代码质量数据进行管理,并可以对代码质量进行追溯,
      • 质量规约是指对软件代码质量和要求和规范,其涵盖了编码规范,复杂度,覆盖率,以及安全漏洞,合规性要求等多个方面。
      • 检查方式是指代码质量规约检查的执行手段,触发条件,对执行效率、易用性等方面的同样提出要求。
      • 反馈处理是指代码质量检查结果的收集,跟踪,处理的完整流程,可通过代码技术债务的指标进行衡量。
    • 自动化测试:是把以人为驱动的测试行为转化为机器执行的一种过程,在预设条件下运行系统或应用 程序,执行测试并评估测试结果,以达到节省人力、时间或硬件资源,提高测试效率和准确性,
      • 自动化设计是指测试分层中各种测试类型的自动化设计方法, 用于指导自动化测试工作的有效执 行。
      • 自动化开发是指依据自动化设计进行自动化测试工具、脚本、用例、框架、系统等不同层面的开发 水平。
      • 自动化执行是指自动化测试的执行条件和触发机制,以及测试问题的跟踪处理机制,从而满足自动 化设计的目标。
      • 自动化分析是指自动化测试结果的准确性,数据分析能力,以提供更多的反馈信息用来优化和持续 改进自动化测试流程。
  • 部署与发布管理
    • 部署与发布模式:部署和发布模式关注交付过程中的具体实践,将部署活动自动化并前移到研发阶段,通过频繁的演 练和实践部署活动,成为研发日常工作的一部分,从而减少最终部署的困难和不确定性,可靠、可重复 的完成部署发布任务。
      • 部署方式指软件包部署到线上生产环境或者交付用户的过程所采用的工具和方法。
      • 部署过程是指软件上线部署环节的实践方法以及完成部署活动的能力。
      • 部署策略是指部署过程的执行频率和部署内容以及部署手段来保证安全快速顺畅的生产部署。
      • 部署质量是指部署活动的成功率和确保部署质量提升的机制和能力。
    • 部署流水线:是DevOps的核心实践,通过可靠、可重复的流水线,打通端到端价值流交付,实现交付 过程中各个环节活动的自动化和可视化。部署流水线通过将复杂的软件交付流程细分为多个阶段,每个 阶段层层递进,提升软件交付质量信心,并且在流水线过程中提供快速反馈,减少后端环节浪费。
      • 协作模式是指软件从需求到上线交付各个环节中各责任主体之间的信息传递和交互方式,体现整体 交付过程顺畅程度。
      • 流水线过程是指软件交付过程中各个环节活动的实现机制和整体交付的触发条件。
      • 过程可视化指软件交付过程中信息的可见程度,以及所展现数据对于业务价值的展现能力。
  • 环境管理
    • 环境管理:环境作为DevOps持续敏捷交付过程中最终的承载,包括环境的生命周期管理、一致性管理、环境的 版本管理。
      • 环境类型是指研发环境种类的齐备性,用于满足不同阶段业务需求的能力。
      • 环境构建是指环境的生成方式和交付能力,从交付过程和交付速度中体现。
      • 环境依赖与配置管理是指环境所依赖的内容的识别和管理方法,以及环境变更的有效跟踪反馈,用 于确保环境的一致性和受控。
  • 数据管理
    • 测试数据管理:测试数据需要满足多种测试类型的需求(手工测试,自动化测试),覆盖正常状态,错误状态和边 际状态,测试数据需同时满足测试效率和数据量的要求。
      • 数据来源是指测试数据的生成方式,用以满足不同测试类型的需求。
      • 数据覆盖是指测试数据对于各种测试类型需求的支持能力。
      • 数据独立性是指测试数据在测试执行各阶段的完整性和一致性, 不会受到其他任务执行结果的影响。
    • 数据变更管理:指应用程序升级和回滚过程中的数据库结构和数据的变更,良好的变更管理策 略应保证应用版本和数据库版本兼容匹配,以应对应用的快速扩容缩容等线上场景。
      • 变更过程是指数据库相关信息的更新方法和实现机制。
      • 兼容回滚是指数据库变更的向下兼容性以及回退变更的能力和方法。
      • 数据监控是指对数据变更过程的日志、状态、以及数据指标的收集分析和辅助决策的能力。
  • 度量与反馈:DevOps基于精益思想发展而来,其中持续改进是精益思想的核心理念之一。
    • 度量指标:度量指标的拣选和设定是度量和反馈的前提和基础,科学合理的设定度量指标有助于改进目标的达 成。
      • 度量指标定义是指度量指标设计的依据和生效领域,用于识别符合业务需求的度量指标。
      • 度量指标类型是指度量指标的覆盖和完整度。
      • 度量数据管理是指度量数据的收集,分析和管理。
      • 度量指标更新是指度量指标的更新机制,范围和频率。
    • 度量驱动改进:度量驱动改进关注软件交付过程中各种度量数据数据的收集,统计,分析和反馈,通过可视化的度 量数据客观反映整个研发过程的状态,以全局视角分析系统约束点,并在团队内部共享,帮助设立客观 有效的改进目标,并调动团队资源进行优化.
      • 内容和生成方式是指度量报告的生成手段和数据展示能力。
      • 数据时效性是指度量报告所体现结果的及时性以及实时更新能力。
      • 覆盖范围是指可查看度量报告的人员范围。
      • 反馈改进是指度量发现的问题的处理方式。

过程 — 技术运营

  • 监控管理
    • 指标采集:指通过主动采集或被动收集方式获取监控数据。
      • 覆盖度
      • 采集方法
      • 准确性
      • 及时性
      • 采集性能
      • 等等
    • 监控数据处理:是指对数据进行过滤、转换、提取、聚合和存储等操作,是监控核心能力。
      • ETL能力
      • 处理能力
      • 存储能力
      • 适配能力
    • 异常识别:是指对提取的监控指标或事件进行检测,识别出异常点用于告警和决策。
      • 识别方法
      • 收敛策略
      • 有效性
      • 告警延时
    • 监控可视化及通知:是将监控数据通过图表方式进行呈现, 监控通知是将异常事件通过邮件或短信等通信方式告知业务负责人。
      • 可视化呈现
      • 通知方式
      • 预处理手段
      • 告警统计
  • 事件管理:事件是指计划外的服务中断、服务质量下降或还未影响服务的事态。
    • 事件发现:事件发现主要指 IT 部门通过各种技术手段主动或被动发现和受理信息系统的异常或者例外事件
      • 事件分类分级
      • 工具
      • 用户感知
    • 事件处理:指 IT 部门各条线技术人员通过各种技术手段对事件进行分析、诊断、快速解决和恢复业务的过程
      • 事件处理机制
      • 事件处理角色与考核
    • 事件回顾:指IT部门定期对周期内发生的所有事件进行总结,包括生成相关报表 和典型案例经验分享等,旨在持续提高事件管理能效
      • 事件数量趋势
      • 系统可用性影响
      • 知识管理
  • 变更管理
    • 计划内普通变更:是指按照技术组织预定义好的计划实施的高频的、常规的、操作规范的、标准的变 更。
      • 变更管理流程
      • 变更管理人员
      • 变更管理工具
      • 变更管理报告与 通知
      • 变更指标
    • 计划外紧急表更:是指遇到紧急和突发事件,需尽快在生产环境中进行的变更,以满足业务急迫的需要, 比如发生了故障或特别紧急的需求,需要紧急变更。
      • 变更管理流程
      • 变更管理人员
      • 变更管理工具
      • 变更管理报告与 通知
      • 紧急变更指标
  • 容量与性能管理
    • 容量与性能管理活动
      • 容量指标的识别:指识别整个业务运行过程中涉及的各领域层级的容量指标,领 用领域、基础架构领域,其中不同应用的业务领域与应用领域容量指标不同,基础架构领域相对稳定
      • 容量架构设计:在应用架构设计时进行的容量性能能的架构评估与设计, 根据业务未来发展需求从应用架构与基 础架构解耦、横向伸缩、自动弹性、服务化等角度设计应用架构。
      • 上线前 测试容量与性能管理:进行系统或设备上线前的测试调优和资源分配, 上线前容量与性能管理容量主要为容量测试上线 前的测试案例中需指定容量测试案例,容量测试案例覆盖单节点极限峰值,一般以 CPU 利用率、带宽 到达峰值时的业务值为测试结果。
      • 日常容量与性能管理:主要内容为日常容量监控和容量分析/预测
        • 进行 IT 组件的容量资源监控、预警、告警。
        • 各 IT 组件的容量指标不断完善,容量监控质量持续提高。
        • 通过容量数据分析,预测容量发展趋势。
        • 发现版本发布前后的容量变化。
      • 年度容量与性能管理:容量与性能管理进行年度容量评估和次年容量计划,将评估结果作用于第二年的资源扩充
        • 对全年重点 IT 组件的容量使用进行总结。
        • 分析容量短板,制定次年容量计划,并作为 IT 资源计划制定的依据。
      • 特殊日期 / 营销容量与性能管理:特殊日期容量与性能管理主要包括节假日(春节、五一、中秋/国庆、元旦等)、内外部营销活动(双 11/12 等)的容量预估、容量压测、营销后数据分析等工作。
        • 保证特殊日期主要 IT 组件的容量满足特殊日期业务需要。
        • 持续优化业务量预测模型、业务-容量测算模型。
        • 持续优化各 IT 组件容量指标体系。
        • 及时提出扩容需求并进行扩容。
    • 容量与性能管理:是通过对容量相关活动与容量指标的管理,保障业务的可持续性运行,是业务发展 阶段中必须开展的一项重要工作内容。
      • 容量管理
        • 管理范围与策略
        • 应用架构
        • 工具
      • 性能管理
        • 管理范围与策略
        • 人员机制
        • 工具
  • 成本管理
    • 运营成本管理
      • 运营成本包括不限于:机房机位、内外网带宽、交换机、服务器、软件购买、云服务购买等 选择不同的资源模式成本管理有很大差异,企业常见的有四种:
        • IDC托管模式:该模式有第三方提供机房物力空间、机架、供电、制冷等基础设施,企业购置服务 器、网络设备、带宽、软件等自建设部署;
        • 托管服务模式:该模式下外包核心基础设施,如电能和网络连通性,企业无需再购买服务器和网络 硬件由托管服务提供商提供租赁,并负责管理这些硬件系统和安装操作系统软件。
        • 云模式:和托管服务模型类似,在这个模型中,企业以购买云服务的方式外包了基础设施和硬件, 且企业并不是独享硬件资源,而是在需要云服务资源时动态分配的虚拟化资源。
      • 实施成本管理是企业从业务经营视角来对运营成本进行分摊核算、预测、规划、优化、考核、奖惩, 保障资源尽可能的合理利用,并结合产品质量和效率,以达到平衡,是企业追求价值最大化的必然选择, 但并不是单纯追求成本最低利润最大化,其中最重要环节是预算管理和成本优化。
    • 预算管理:IT预算管理是指在公司战略目标的指导下,对未来经营周期内(通常指一年)IT系统为支持业务正 常运转和发展所需要的资源进行充分、全面的预测和规划,通过预核算执行率监控,不断比对和分析实 际完成情况与预算目标,从而及时改善和调整预算,预算不足时需要及时做预算滚动,预算过多需要控 制使用,以帮助管理者更加有效地管理IT系统花费,并支持实现战略目标。
      • 预算管理组织体系:由决策机构、工作机构、执行机构三个层面组成,承担着 控制、调整、监督、核算、分析、考评及奖惩等一系列预算管理活动。
        • 决策机构
          • 预算编制
          • 预算控制
          • 预算分析
          • 人员机制
          • 工具能力
    • 成本优化
      • 资源管理
      • 交付模式
      • 应用架构
      • 人员机制
      • 工具能力
  • 连续性与可用性管理
    • 连续性管理:连续性服务是组织在计划和应对重大故障和灾难时的一种战略和战术能力。
      • 连续性计划和流程
      • 数据备份活动
      • 演习演练
      • 关键业务容灾能力
      • 人员
      • 文化
    • 可用性管理:是服务、组件或配置项在需要时,执行其约定功能的能力。
      • 高可用服务架构
      • 可用性管理
      • 可用性组织
      • 业务可用性指标
      • MTTR
    • 应急事件管理:是当系统出现故障时,对故障进行的应急处理,快速恢复业务的过程管理。
      • 事件管理状态
      • 事件管理过程的工具手段
      • 可视化
      • 人员
  • 用户体验管理
    • 业务认知能力
      • 业务流程知识管理:是指技术运营团队对所运营产品的业务流程,产品功能,使用方法的了解和掌 握的能力。
      • 业务知识管理:对业务和行业的知识管理能力,团队具备持续的学习能力,建立在深度理解产品的 基础上,提升服务能力快速处理问题异常。
        • 业务流程
        • 业务知识
        • 工具
        • 人员
    • 数据管理能力:数据管理是运营团队对产品的数据采集能力、数据监控能力、数据分析能力。
      • 数据采集
      • 数据监控
      • 数据分析
      • 工具
      • 人员
    • 体验优化能力
      • 体验异常发现
      • 体验异常定位
      • 体验异常决策
      • 体验异常修复
      • 工具
      • 人员
  • 运营一体化平台
    • 运营一体化平台整体框架
    • IaaS统一管控能力:IaaS统一管控能力是整个技术运营一体化平台的底层支撑体系,是上层PaaS与底层IaaS的连接器, 为上层提供指令、文件、数据的通道,支持直连、代理(Proxy)模式。
      • 跨云管理能力
      • 文件传输类型
      • 执行任务类型
      • 数据采集服务
    • 原子平台能力:原子平台能力为IaaS之上的管理与技术运营基础操作平台
      • CMDB
      • 作业功能
      • 运维数据平台
      • 容器管理
      • 数据挖掘
    • PaaS平台能力
      • IPaaS
      • APaaS
    • 运维场景能力:运营场景能力是基于PaaS能力之上快速构建的面向技术运营场景解决方案的载体。 它通过对底层 各平台能力原子功能的拼装,实现监控管理、事件管理、变更管理、容量管理、成本管理、连续性服务、 用户体验等各类技术运营场景。
      • 监控能力
      • 自动化运维能力
      • ITSM 管理能力
      • 运营分析能力

应用设计

  • 应用接口
    • 传输协议
    • 数据协议
    • 内容协议
    • 接口治理
  • 应用性能
    • 实际性能
    • 可用性
  • 应用扩展
    • 水平扩展
    • 垂直扩展
  • 故障处理
    • 日志
    • 监控
    • 故障追踪
    • 故障修复

安全及风险管理

组织架构

  • 组织型态
    • 目标管理:目标管理强调组织目标和个人目标的一致性,强调组织和个人同步成长,形成“多赢”局面;目标 管理体现着“以人为本”的思想,在目标管理的各个环节中都需要管理者和员工的共同参与。
    • 协作模式:协作模式受组织结构的影响,协作的核心是协商和合作,是组织目标实施成功的关键。
    • 决策模式:决策模式是组织在决策系统中对决策过程客观规律的表述,决策通常是确定目标、设计和选择方案 来解决问题的过程。
  • 文化塑造
    • 协作的文化
    • 免责的文化
    • 持续改进的文化
  • 人员技能
    • 专业技能
    • 专业培训
    • 灵活性和应变能力
  • 创新管理
    • 创新环境氛围
    • 制度流程
    • 创新成果产出
  • 变革管理
    • 变革组织
    • 变革实施
    • 变革效果
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值