智能运维
文章平均质量分 75
micklongen
micklongen
展开
-
C. 智能运维解决方案 --- 微众银行
C. 智能运维解决方案 — 微众银行概述IT 运维的价值体现在对业务稳定、运行安全和提效降本三个方面的保障与控制发展阶段手动运维背景信息化发展初期缺少运维工具和操作指南依赖个人知识、技术及经验流程化、标准化运维背景业务量增长超过人力增长运维流程、标准等文档的建立和管理工具标准化管理平台化、自动化运维背景架构异构;运维方式差异化手工执行转化自动化操作事件与流程关联运维数据可视化DevOps背景需求迭代频繁、快速;业务架构复杂原创 2021-10-28 13:47:23 · 744 阅读 · 0 评论 -
A. 运维体系 --- Devops
A. 运维体系 — Devops能力成熟度划分初始级:在组织局部范围内开始尝试DevOps活动并获得初期效果基础级:在组织较大范围内推行DevOps实践并获得局部效率提升全面级:在组织内全面推行DevOps实践并贯穿软件全生命周期内获得整体效率提升优秀级:在组织内全面落地DevOps并可按需交付用户价值达到整体效率卓越级:在组织内全面形成持续改进的文化并不断驱动DevOps在更大范围内取得成功过程 — 敏捷开发管理价值交付管理需求工件:对需求和用例的管理需求内容与形式需求测试原创 2021-10-28 13:39:37 · 811 阅读 · 0 评论 -
A. 运维体系 --- SLA理论体系
A. 运维体系 — SLA理论体系概述:SLA,是服务供应商与客户之间的服务等级协议,它定义了服务供应商应保证的服务质量,以及在服务不达标情况下的服务赔偿。SLA在定义上又细分为SLI、SLO与SLA。SLI,服务质量指标,服务的某项质量的一个具体的量化指标。SLO,服务质量目标,服务的某项SLI的具体目标值,或者目标范围。SLA,服务质量协议,描述在服务不达SLO情况下的后果。SLA的收益3.1 增强运行态的确定性:SLA可以帮助构建线上运行态的确定性,让产品从“能够正常对外提供服务”跨原创 2021-10-28 13:34:54 · 6444 阅读 · 0 评论 -
智能运维(AIOps)系列之五:误区总结
智能运维是一套复杂的人工智能解决方案,也是一个庞大的系统工程。除了涉及到 业务、产品、技术 之外,还涉及到 管理/组织架构 和 产品运营。管理/组织架构Leader:leader 是整个项目落地的关键。因此 leader 最好是一个懂技术的人。如果 leader是业务出身,不懂技术,那么带来的最大问题就是:a. 很容易想当然,觉得实现一个功能没什么大不了的;b. 就算把功能实现了,也没有能力体系化,产品化,只是孤立的把一个功能看成是一个功能;c. 大部分业务,还是很排斥学习技术;偏工程原创 2021-07-18 14:03:09 · 717 阅读 · 0 评论 -
智能运维(AIOps)系列之四:智能运维落地的思路
开发智能运维,团队需要的能力结构业务能力概述智能运维,是建立在现有运维业务和技术体系之上的;智能运维的落地和发展,需要跟业务产生良好的互动,取得他们的支持:智能运维所需要的业务经验,是来源于业务方的;智能运维产品,最终也是业务方在使用的;因此,掌握运维业务以及运维技术体系,对于后续寻找方向、以及跟业务沟通,都有很大的帮助。能力结构对运维业务相关的方法论,有较深入的理解;对运维技术体系,有较深入的理解;详见:https://blog.csdn.net/micklongen/a原创 2021-05-27 17:15:39 · 3806 阅读 · 0 评论 -
智能运维(AIOps)系列之三:什么是智能运维
基础信息详见: 《企业级 AIOps 实施建议》白皮书现阶段的研究方向原创 2021-05-24 22:04:28 · 1882 阅读 · 0 评论 -
智能运维(AIOps)系列之二:什么是人工智能
大众对人工智能认识的误区很多计算机从业人员,对人工智能的理解 数据挖掘和深度学习。另一部分对人工智能的理解,则多了知识图谱。其实,人工智能的理论基础和技术分支,都极其广泛。具体详见下文。揭开人工智能的神秘面纱 — 什么是人工智能人工智能的概念现阶段,对人工智能的概念还没有统一的定义。有兴趣的同学,可以网上找一下,在这里不累述。人工智能的理论基础哲学起源于哲学的本体论,则是用来定义实体,以及建立 实体之间的关联关系。目前,本体论主要用于知识图谱的建设。数学逻辑:主要用在逻辑推理上面。原创 2021-05-23 21:24:59 · 1212 阅读 · 0 评论 -
智能运维(AIOps)系列之一:个人对智能运维的理解
个人认知过程至从2017年,开始从事智能监控开发之后,就跟智能运维搭上了不解之缘。2017年:刚开始做监控的时候,研究了几乎市面上所有监控产品,和相关的技术文章、视频。这个时候,主要是接触了大数据相关的技术,包括:Kafka、Spark、HiTSDB、ELK等。《大数据日知录》:分布式系统相关的理论、以及大数据相关的技术;《从零开始学习架构》:阿里的一位大神写的,关于 分布式系统架构 的一整套方法论;2018年:随着监控的逐步完善。开始考虑结合数据挖掘相关技术,产生新的业务价值。刚开始学习原创 2021-05-22 21:38:36 · 6261 阅读 · 2 评论 -
B. 智能运维 --- 质量保障 --- 混沌工程
B. 智能运维 --- 质量保障 --- 混沌工程 概述 目的:混沌工程是在分布式系统上进行实验的学科, 目的是建立对系统抵御生产环境中失控条件的能力以及信心。我们需要在异常行为出现之前,在整个系统内找出这些弱点。这些弱点包括以下形式: 当服务不可用时的不正确回滚设置; 不当的超时设置导致的重试风暴; 由于下游依赖的流量过载导致的服务中断; 单点故障时的级联失败等。...原创 2019-09-03 10:20:19 · 820 阅读 · 2 评论 -
人工智能解决方案 --- 智能运维(AIOps)
运维背景知识A. 运维体系:SRE/CREA. Google SRE概述B. Google SRE指导思想B. Google SRE指导思想 - 拥抱风险C. Google SRE 实践C. Google SRE 实践 - 产品发布D. Google SRE 管理D. Google SRE 管理 - 培训SRED. Google SRE 管理 - SRE参...原创 2019-05-18 09:19:44 · 9860 阅读 · 0 评论 -
B. 智能运维 --- 成本优化 --- 容量规划 --- 案例
B. 智能运维 --- 成本优化 --- 容量规划 --- 案例 AIOps新应用:为大数据批处理任务配置最佳云资源 项目背景 运行在云上的大数据分析任务变得越来越重要。现有的大数据分析技术包括map-reduce、SQL式查询语言、深度学习。这些大数据分析应用需要相似的计算结构,即VM集群。然而,VM集群的配置有很多可供选择的组合,包括CPU、内存、磁盘、网络。这样为大数据分析...原创 2019-04-22 01:03:01 · 1082 阅读 · 0 评论 -
B. 智能运维 --- 质量保障 --- 异常检测 --- 指标聚类
B. 智能运维 --- 质量保障 --- 异常检测 --- 指标聚类 微软亚研院的AIOps底层算法: KPI快速聚类 复杂度分析 时序数据数量大、维度高。运维中的时序数据集通常具有大量实例(如数百万个),每个实例具有较高维度(如数千维),难以使用传统的聚类方法进行快速聚类。 时序数据实例间的相似性难以准确刻画。不同于简单的数值型、类别型数据,时间序列数据上通常存在着相位扰...原创 2019-04-21 18:54:11 · 1515 阅读 · 0 评论 -
B. 智能运维 --- 质量保障 --- 故障预测
B. 智能运维 --- 质量保障 --- 故障预测 基于机器学习的磁盘故障预测 复杂度 不是所有的SMART属性都与磁盘故障相关 磁盘故障数据高度不平衡 不同类型的磁盘SMART存在差异 解决方案 选择SMART属性。使用突变点(changepoint)检测的方法对SMART属性分类,选择与磁盘替换相关的SMART属性。对于不同型号的磁盘,与磁盘替换事件相关...原创 2019-04-21 19:01:18 · 1848 阅读 · 0 评论 -
B. 智能运维 --- 质量保障 --- 根因分析
B. 智能运维 --- 质量保障 --- 根因分析 机器学习定位故障责任部门 --- 微软NetPoirot 特点 轻量级的持续监控:仅需收集TCP的数据,避免收集整个系统海量的日志(SNMP,网络拓扑,性能指标,程序日志等)。 准确的机器学习分类:利用决策树/随机森林来实现自动且准确的根因分类。 简单的系统实现:不需要了解系统方面的信息,包括网络拓扑,程序模块关系...原创 2019-04-21 19:04:22 · 3514 阅读 · 0 评论 -
B. 智能运维 --- 质量保障 --- 异常检测 --- 指标异常检测 --- 框架
B. 智能运维 --- 质量保障 --- 异常检测 --- 指标异常检测 --- 框架 雅虎遗作:异常检测框架(EGADS) 业务场景 系统指标:系统指标可以反映硬件的健康情况。比如CPU利用率,硬盘空间,网络端口状态,内存使用情况等等。 商业指标:这些指标可以帮助公司快速的发现服务问题。比如页面访问率,访问延迟等等。 EGADS的整体框架 时间序列建模模块 (T...原创 2019-04-21 19:10:58 · 1580 阅读 · 0 评论 -
B. 智能运维 --- 质量保障 --- 异常检测 --- 指标异常检测
B. 智能运维 --- 质量保障 --- 异常检测 --- 指标异常检测 概述 核心思想 核心指标:高准召率,基于标注训练或者人工精细化调参 非核心指标:低成本接入,中准召率,无标注训练,冷启动,基于反馈自动调整 阈值设置手段 人工设置 维护成本高 需要有丰富经验的人 在业务快速发展的情况下,容易产生漏报、误报 自动设置 基...原创 2019-04-21 22:13:01 · 2093 阅读 · 6 评论 -
B. 智能运维 --- 质量保障 --- 异常检测 --- 日志分析
B. 智能运维 --- 质量保障 --- 异常检测 --- 日志分析 概述 难点 非结构化日志 时效性 异常类型多 解决方案1 日志模板提取 FT-tree 核心思想:系统日志消息中详细信息字段的子类型通常是频繁出现的单词的最长组合。 步骤 统计词频 按照词频,对每条日志的单词重新排序 把所有的日志建成一个树,...原创 2019-04-21 22:19:57 · 2545 阅读 · 0 评论 -
B. 智能运维 --- 质量保障 --- 异常检测 --- 指标异常定位
B. 智能运维 --- 质量保障 --- 异常检测 --- 指标异常定位 瓶颈分析 --- 决策树 目标:找出哪些因素的影响会导致搜索响应时间大于1秒钟 解决方案 首先FOCUS使用系统每天产生的日志数据来训练决策树,从决策树中可以分析得到引发高搜索响应时间(HSRT)的条件,由于每天的数据会训练出一棵决策树,因此多天后会有多棵决策树产生; 接下来在多棵决策树中挖掘出相...原创 2019-04-21 22:26:04 · 1782 阅读 · 0 评论 -
B. 智能运维 --- 成本优化 --- 容量规划
B. 智能运维 --- 成本优化 --- 容量规划 概述 核心:成本和性能 作用 判断现有系统规模还可以再承载多少流量 对于新增的流量,采购设备时给予指导,花最少的钱办同样的事 流量切换时可以量化 优化服务规模 目标 节省成本 节省人力 前提条件 多少业务,业务量是多少,对应到各个系统的调用量 查询量/数据量 如果出现...原创 2019-04-21 22:34:16 · 1862 阅读 · 0 评论 -
A. 智能运维纲要
A. 智能运维纲要 概述 优势 大量的数据 具体的业务场景 条件 行业领域知识 算法知识:三个层面 独立模块 需要依赖于其他算法的 系统性问题 运维场景领域知识 工程挑战 没有高质量的标签数据 历史 手工运维 自动化运维 开发运维 智能运维 能力等级 尝试应用 单点应用 ...原创 2019-04-22 01:01:47 · 2671 阅读 · 3 评论 -
A. 运维体系:SRE/CRE
A. 运维体系:SRE/CRE 体系 核心:应用 标准化 核心 识别对象 识别对象属性 识别对象关系 识别对象场景 基础设施标准化 识别实体对象 主要有服务器、网络、IDC、机柜、存储、配件等 识别对象的属性 比如服务器就会有 SN 序列号、IP 地址、厂商、硬件配置 网络设备如交换机也会有厂...原创 2019-04-22 01:02:29 · 3904 阅读 · 0 评论 -
B. 智能运维 --- 质量保障 --- 用户体验 --- 指标分析
B. 智能运维 — 质量保障 — 用户体验 — 指标分析B. 智能运维 — 质量保障 — 用户体验 — 指标分析视频分析 — 相关系数/信息论数据采集客户端:客户端采集数据规模:超过100万的用户,200万次的观看,以及主流的内容生产商分析维度指标类型视频加载时间(Join time)缓冲比 (BufRatio)缓冲事件频率(RateBuf)平均比特率(AvgBitrat...原创 2019-04-21 18:35:33 · 999 阅读 · 0 评论