- 博客(13)
- 资源 (4)
- 收藏
- 关注
原创 B. 智能运维 --- 成本优化 --- 容量规划 --- 案例
B. 智能运维 --- 成本优化 --- 容量规划 --- 案例 AIOps新应用:为大数据批处理任务配置最佳云资源 项目背景 运行在云上的大数据分析任务变得越来越重要。现有的大数据分析技术包括map-reduce、SQL式查询语言、深度学习。这些大数据分析应用需要相似的计算结构,即VM集群。然而,VM集群的配置有很多可供选择的组合,包括CPU、内存、磁盘、网络。这样为大数据分析...
2019-04-22 01:03:01 1105
原创 A. 运维体系:SRE/CRE
A. 运维体系:SRE/CRE 体系 核心:应用 标准化 核心 识别对象 识别对象属性 识别对象关系 识别对象场景 基础设施标准化 识别实体对象 主要有服务器、网络、IDC、机柜、存储、配件等 识别对象的属性 比如服务器就会有 SN 序列号、IP 地址、厂商、硬件配置 网络设备如交换机也会有厂...
2019-04-22 01:02:29 3965
原创 A. 智能运维纲要
A. 智能运维纲要 概述 优势 大量的数据 具体的业务场景 条件 行业领域知识 算法知识:三个层面 独立模块 需要依赖于其他算法的 系统性问题 运维场景领域知识 工程挑战 没有高质量的标签数据 历史 手工运维 自动化运维 开发运维 智能运维 能力等级 尝试应用 单点应用 ...
2019-04-22 01:01:47 2683 3
原创 B. 智能运维 --- 成本优化 --- 容量规划
B. 智能运维 --- 成本优化 --- 容量规划 概述 核心:成本和性能 作用 判断现有系统规模还可以再承载多少流量 对于新增的流量,采购设备时给予指导,花最少的钱办同样的事 流量切换时可以量化 优化服务规模 目标 节省成本 节省人力 前提条件 多少业务,业务量是多少,对应到各个系统的调用量 查询量/数据量 如果出现...
2019-04-21 22:34:16 1880
原创 B. 智能运维 --- 质量保障 --- 异常检测 --- 指标异常定位
B. 智能运维 --- 质量保障 --- 异常检测 --- 指标异常定位 瓶颈分析 --- 决策树 目标:找出哪些因素的影响会导致搜索响应时间大于1秒钟 解决方案 首先FOCUS使用系统每天产生的日志数据来训练决策树,从决策树中可以分析得到引发高搜索响应时间(HSRT)的条件,由于每天的数据会训练出一棵决策树,因此多天后会有多棵决策树产生; 接下来在多棵决策树中挖掘出相...
2019-04-21 22:26:04 1795
原创 B. 智能运维 --- 质量保障 --- 异常检测 --- 日志分析
B. 智能运维 --- 质量保障 --- 异常检测 --- 日志分析 概述 难点 非结构化日志 时效性 异常类型多 解决方案1 日志模板提取 FT-tree 核心思想:系统日志消息中详细信息字段的子类型通常是频繁出现的单词的最长组合。 步骤 统计词频 按照词频,对每条日志的单词重新排序 把所有的日志建成一个树,...
2019-04-21 22:19:57 2571
原创 B. 智能运维 --- 质量保障 --- 异常检测 --- 指标异常检测
B. 智能运维 --- 质量保障 --- 异常检测 --- 指标异常检测 概述 核心思想 核心指标:高准召率,基于标注训练或者人工精细化调参 非核心指标:低成本接入,中准召率,无标注训练,冷启动,基于反馈自动调整 阈值设置手段 人工设置 维护成本高 需要有丰富经验的人 在业务快速发展的情况下,容易产生漏报、误报 自动设置 基...
2019-04-21 22:13:01 2117 6
原创 B. 智能运维 --- 质量保障 --- 异常检测 --- 指标异常检测 --- 框架
B. 智能运维 --- 质量保障 --- 异常检测 --- 指标异常检测 --- 框架 雅虎遗作:异常检测框架(EGADS) 业务场景 系统指标:系统指标可以反映硬件的健康情况。比如CPU利用率,硬盘空间,网络端口状态,内存使用情况等等。 商业指标:这些指标可以帮助公司快速的发现服务问题。比如页面访问率,访问延迟等等。 EGADS的整体框架 时间序列建模模块 (T...
2019-04-21 19:10:58 1602
原创 B. 智能运维 --- 质量保障 --- 根因分析
随着时代的发展,现有的企业 IT 设施越来越庞大、越来越复杂。根因分析的定位,变得越来越难。由此引出了一个问题,是否可以借助人工智能技术,实现故障的智能定位?现在市面上关于根因分析的材料并不多,更多的是以论文的形式出现,都在探索不同的算法在特定场景下的效果。学术研究本来就应该百花齐放,但是工业界除了关心理论本身,更关心的是如何落地以及如何为企业带来效益。
2019-04-21 19:04:22 3585 1
原创 B. 智能运维 --- 质量保障 --- 故障预测
B. 智能运维 --- 质量保障 --- 故障预测 基于机器学习的磁盘故障预测 复杂度 不是所有的SMART属性都与磁盘故障相关 磁盘故障数据高度不平衡 不同类型的磁盘SMART存在差异 解决方案 选择SMART属性。使用突变点(changepoint)检测的方法对SMART属性分类,选择与磁盘替换相关的SMART属性。对于不同型号的磁盘,与磁盘替换事件相关...
2019-04-21 19:01:18 1876
原创 B. 智能运维 --- 质量保障 --- 异常检测 --- 指标聚类
B. 智能运维 --- 质量保障 --- 异常检测 --- 指标聚类 微软亚研院的AIOps底层算法: KPI快速聚类 复杂度分析 时序数据数量大、维度高。运维中的时序数据集通常具有大量实例(如数百万个),每个实例具有较高维度(如数千维),难以使用传统的聚类方法进行快速聚类。 时序数据实例间的相似性难以准确刻画。不同于简单的数值型、类别型数据,时间序列数据上通常存在着相位扰...
2019-04-21 18:54:11 1525
原创 B. 智能运维 --- 质量保障 --- 用户体验 --- 指标分析
B. 智能运维 — 质量保障 — 用户体验 — 指标分析B. 智能运维 — 质量保障 — 用户体验 — 指标分析视频分析 — 相关系数/信息论数据采集客户端:客户端采集数据规模:超过100万的用户,200万次的观看,以及主流的内容生产商分析维度指标类型视频加载时间(Join time)缓冲比 (BufRatio)缓冲事件频率(RateBuf)平均比特率(AvgBitrat...
2019-04-21 18:35:33 1010
原创 [图论]Bright Network Hub(最短路+动态规划)
Bright Network HubTime Limit:5s Memory limit:32M Accepted Submit:61 Total Submit:255 Microhard company has just invented a brandly new speeding up device called Bright Network Hub(BNH). Th...
2019-04-11 21:55:40 586
FOS操作系统
2008-01-26
计算机系统要素:从零开始构建现代计算机
2008-01-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人