AIops
iwtbs_kevin
曾在快手/阿里实习,现在字节跳动data担任推荐算法工程师
展开
-
Spring微服务实战
目录第一章 欢迎迈入云世界,Spring第一章 欢迎迈入云世界,Spring微服务重要概念:分解和分离应用程序的功能,使他们完全彼此独立每个组件独立部署,对单个业务领域负责微服务通信采用HTTP和JSON这样的轻量级通信协议,在服务消费者和服务提供者之间数据交换Spring本质上就是让用户像玩乐高积木一样将自己的代码组装在一起Spring Boot提供了一个基于Jav...原创 2019-08-13 17:38:42 · 568 阅读 · 0 评论 -
AIops相关算法
文章目录根因分析清华FOCUS:找影响系统性能瓶颈的原因MSRA iDice:多维指标突变定位清华Hotspot:多维根因定位智能变更清华FUNNEL:评估变更影响异常检测雅虎EGADS:KPI异常检测框架清华Opprentice:KPI自动化异常检测清华DeepLog: 日志异常检测清华StepWise:指标模式漂移后的准确异常检测故障预测IBM: 磁盘故障预测聚类微软Yading:时序数据聚类...原创 2020-03-02 17:43:04 · 4740 阅读 · 6 评论 -
清华/阿里巴巴开源的周期型——Donut
论文Unsupervised Anomaly Detection via Variational Auto-Encoder for Seasonal KPIs in Web Applications源码github文章目录问题背景正文AutoEncoderVariational AutoEncoder(VAE)缺陷问题背景在智能运维领域中,由于缺少异常样本,有监督方法的使用场景受限。因此,...原创 2019-11-01 19:56:05 · 1500 阅读 · 0 评论 -
特征提取和深度学习的KPI异常检测方法—组合模型
文章目录简介挑战总体设计数据预处理特征提取数据均衡模型训练模型综合方案来自于首届AIops挑战赛亚军团队简介问题场景就是运维中kpi异常检测,希望可以提高检测的准确率。该团队的思路是提取特征然后用集成学习的方法将异常检测转变为二分类问题,其思路与Opprentice很像。(可以参考我另外一篇博文Opprentice)挑战负样本稀少KPI异常类型多样KPI三种形态:周期波动/稳...原创 2019-11-01 16:32:25 · 3739 阅读 · 4 评论 -
KPI自动化异常检测系统——Opprentice
论文:Opprentice: Towards Practical and Automatic Anomaly Detection Through Machine Learning文章目录问题设计思想算法细节问题KPI类型很多,没有万能的检测器,需要为不同类型的KPI选择合适的异常检测器和合适的参数算法人员没有运维知识,运维人员不懂算法,所以要尽可能全自动化设计思想运维人员标注异...原创 2019-11-01 15:50:40 · 2554 阅读 · 0 评论 -
连续区间多类型KPI异常检测
文章目录TitleSummaryResearch ObjectiveProblem StatementMethod(s)EvaluationConclusionTitle《ALSR: An Adaptive Label Screening and Relearning Approach for Interval-Oriented Anomaly Detection》——Expert Syst...原创 2019-09-30 17:37:03 · 2363 阅读 · 1 评论 -
调用链根因定位论文——MS-Rank
《MS-Rank:Multi-Metric and Self-Adaptive Root Cause Diagnosis for Microservice Application》发表会议:ICWS 2019文章目录摘要引言相关工作摘要微服务架构,收集到多个指标的情况下如何分析根因。分为四步:构建影响图随机游走结果准确度计算指标权重更新引言微服务正在大规模部署,带来了开发便...原创 2019-09-26 16:04:13 · 2210 阅读 · 3 评论 -
调用链根因定位论文《Root Cause Analysis of Anomalies of Multitier Services in Public Clouds》
文章目录文章简介公有云两种异常传播异常传播图VCG构建APG构建根因定位可能性计算(Similarity Calculating)APG的随机游走(Random Walk over APG)实验结果Weng, Jianping, et al.“Root cause analysis of anomalies of multi-tier services in public clouds.”I...原创 2019-09-10 20:55:15 · 1601 阅读 · 3 评论 -
调用链根因定位论文《A Methodology for Root-cause Analysis in Component Based Systems》
文章目录文章概述问题定义解决方法第一步 功能组件的异常检测故障序列分析频繁项挖掘实验结果A Methodology for Root-cause Analysis in Component Based Systems.IWQos 2015 short paper. Virginia Commonwealth University & Beihang & Tencent文章概述...原创 2019-09-09 19:44:56 · 1558 阅读 · 0 评论 -
调用链根因定位论文《Ranking causal anomalies by modeling local propagations on networked systems》
文章目录引言问题定义不变网络和破坏网络问题描述CRD算法破坏集群聚类根因排序Ni, Jingchao, et al. “Ranking causal anomalies by modeling local propagations on networked systems.”2017 IEEE International Conference on Data Mining (ICDM). IE...原创 2019-09-06 20:09:50 · 817 阅读 · 0 评论 -
k8s微服务isito相关知识和例子
文章目录istio是什么服务网格istio架构流量管理Pilot 和 Envoy服务之间的通讯服务发现与负载均衡Bookinfo应用部署项目介绍部署应用智能路由故障注入深入遥测istio是什么服务网格服务网格(Service Mesh)这个术语通常用于描述构成这些应用程序的微服务网络以及应用之间的交互。随着规模和复杂性的增长,服务网格越来越难以理解和管理。它的需求包括服务发现、负载均衡、故障...原创 2019-09-02 17:44:49 · 4974 阅读 · 0 评论 -
智能运维-从0搭建大规模分布式AIOps系统
文章目录智能运维开源数据采集技术数据采集工具对比轻量级采集工具Filebeat日志采集解析工具分布式消息队列大数据存储技术传统架构基于HDFS的分布式存储分层存储大规模数据离线计算分析经典的离线计算分布式离线计算时序数据分析框架AIOps算法数据聚合与关联技术数据异常点检测技术故障诊断和分析策略趋势预测算法智能运维对海量“事件”进行分类和处理实时数据和非实时数据格式化数据和非格式化数据...原创 2019-08-15 17:39:09 · 2732 阅读 · 0 评论 -
混沌工程ChaosBlade在微服务上的实践
目录ChaosBlade简介使用文档Demo体验本地编译组建架构场景覆盖图工具使用实战背景介绍network故障实验ChaosBlade简介ChaosBlade 是阿里巴巴开源的一款简单易用、功能强大的混沌实验注入工具,提供丰富故障场景实现,可实现底层故障的注入,特点是操作简洁、无侵入、扩展性强。Chaosblade 是内部 MonkeyKing 对外开源的项目,其建立在阿里巴巴近十年故障...原创 2019-07-26 18:13:46 · 3658 阅读 · 1 评论 -
如何批量删除k8s中的deployment和pod
kubectl get pods 发现有很多pod出问题了要删除所有Evicted的pods应用如下语句:kubectl get pods | grep Evicted| awk '{print $1}' | xargs kubectl delete podTerminating的pod有些特殊,需要采用强制删除的方法:kubectl delete pod [pod ...原创 2019-07-24 16:48:54 · 7246 阅读 · 0 评论 -
序列模式挖掘算法(Sequential Pattern Mining)
这里写自定义目录标题大数据挖掘研究序列模式挖掘概念序列模式挖掘和关联规则挖掘的区别经典算法AprioriAll算法定义算法GSP算法FreeSpan算法PrefixSpan算法算法比较大数据挖掘研究(1)基于内存数据分解的方式:随着数据集越来越大,计算机无法一次性地将大数据集读入内存,数据分解技术采用分而治之的思想,将大数据集分割成一块块小数据集读入内存,然后进行挖掘,最后合并挖掘结果,大大提...原创 2019-07-23 21:39:02 · 14157 阅读 · 1 评论 -
stress压力测试(s-tui)
简单来说,stress是linux系统下做压力测试的一个工具,其主要的几个功能如下:a.测试CPU负荷输入命令:stress –c 4增加4个cpu进程,处理sqrt()函数函数,以提高系统CPU负荷b.内存测试输入命令:stress –i 4 –vm 10 –vm-bytes 1G –vm-hang 100 –timeout 100s新增4个io进程,10个内存分配进程,...原创 2019-07-23 17:34:24 · 4523 阅读 · 0 评论