智能运维
文章平均质量分 71
大嘴吧Lucy
第一代互联网人,现在在做企业服务软件
展开
-
国内智能运维厂商月度动态 202408
国内智能运维厂商的月度动态(主要收集自公号)原创 2024-09-10 16:23:57 · 262 阅读 · 1 评论 -
AIOps探索 | 运维应急的六个阶段
智能运维应急即在IT系统出现异常或故障时,快速发现问题、准确定位、高效修复并验证恢复的全过程。它不仅包括故障发生时的应急处理,还涵盖了故障预防和事后优化。我们将应急处置分为了六个阶段原创 2024-08-27 15:43:32 · 638 阅读 · 0 评论 -
老杨说运维 | 金融业数据中心的发展趋势
金融业的信息化建设,经历了从区域分散式机房 - 数据大集中 - 两地三中心多活 - 云化智能化等过程的发展。这中间经历了信息化建设技术架构、业务服务渠道、通信技术发展、信息化运行手段各阶段的变迁,未来的金融信息中心,将是:数据价值创造中心、先进科技创新中心、协同运营总控中心、绿色可持续发展中心、及智能自治共享中心。原创 2024-05-14 16:09:24 · 266 阅读 · 1 评论 -
深度解析:ChatGPT在不同场景中的应用
大型语言模型在各种应用场景中都展现出了强大的能力。无论是信息提取、文本释义、内容生成、内容归纳总结,还是内容格式化、编程应用、翻译、自然语言处理、知识获取,甚至是图像生成(抽象的可以,带事实数据的欠佳),都能够有效地完成任务,提供高质量的结果。原创 2024-04-19 11:46:43 · 1291 阅读 · 0 评论 -
智能运维场景 | 科技风险预警,能实现到什么程度?
风险预警场景主要面向业务系统,以风险管控为主要视角,通过风险指标、健康度风险模型、风险识别矩阵三大模块构建而成原创 2024-04-10 11:39:34 · 1177 阅读 · 0 评论 -
AIOps案例 | AI能替代人工进行告警分析吗?(二 告警产品化和分析结果报告)
本次项目的目标是对一头部券商客户的“核心业务系统”在过去6个月内产生的33.6万条历史告警数据进行关联分析。通过5轮迭代,我们最终得到了22条关联模式结果,并由数据科学家筛选出了13条有效结果原创 2024-03-21 15:19:06 · 632 阅读 · 0 评论 -
AIOps案例 | AI能替代人工进行告警分析吗?(一 告警模型的建立)
由于可观测性需求的深入及实施,带来了大量的告警需要进行处理,原有的统一事件管理平台仅完成了对告警的收集、告警标准化、丰富和通知等能力。当前客户面临的最大问题是:告警不能进一步收敛,缺乏运维专家的经验可以将同一问题引发的多个告警进行有效的关联,进而进一步降低告警的处理量。原创 2024-03-12 14:32:17 · 966 阅读 · 0 评论 -
AIOps实战 | 运维数智化转型的深入实践与探索
新一代全行运维一体化平台——“启明”,总体分为两个阶段建设,第一阶段:“建平台,夯实底座”,以一体化平台基础能力为核心建设内容,完成统一采控、数据治理、企业级CMDB、自动化等模块建设,并实现多云环境、信创环境适配,在场景侧优先建设统一监控、应急处置等重点应用。第二阶段:“搭场景,运营生态”,在第一阶段基础上,重点建设技术变更、灾备切换等场景,探索告警智能收敛、根因推荐等智能化应用。转载 2024-02-27 16:11:59 · 102 阅读 · 0 评论 -
AIOps探索 | 基于大模型构建高效的运维知识及智能问答平台(2)案例分享
运维大模型的案例分享原创 2024-01-04 15:08:07 · 1988 阅读 · 0 评论 -
AIOps探索 | 基于大模型构建高效的运维知识及智能问答平台(1)
运维大模型,当下有什么落地场景?原创 2023-12-19 17:58:46 · 1125 阅读 · 0 评论 -
智能运维的本质,还就是“挖呀挖呀挖”
用“挖呀挖呀挖”说明IT运维数据的价值原创 2023-05-08 10:30:49 · 110 阅读 · 0 评论 -
神同步的智能运维体系和世界杯442阵型
智能运维AIOps居然和足球赛有一样的阵型!原创 2022-12-08 17:34:12 · 1216 阅读 · 2 评论 -
第一线观察 | 三个AIOps新趋势之我见
让我们看一下2022年我们从市场、客户处所看到并值得关注的3个AIOps新趋势。转载 2022-10-18 14:03:16 · 175 阅读 · 0 评论 -
#老杨说运维#演讲稿:循序渐进推动智能运维建设
2021年6月初,擎创科技CEO杨辰在北京双态用户大会上做了“循序渐进推动智能运维建设”的演讲。这里可以下载演讲的pdf:2021古北 循序渐进推动运维数字化和智能化原创 2021-06-16 16:26:49 · 283 阅读 · 0 评论 -
#老杨说运维# 2021GOPS演讲实录(三)告警、指标、日志、智能运维场景
老杨的话#中翻中#:智能运维,是在数据中台的基础上,对告警、指标和日志数据进行分析处理,并通过智能运维场景来支持运营决策。20201127 GOPS上海_杨辰 03下一步,从数据到信息和知识。那信息和知识的层面,在擎创看来又有什么分别呢?首先我们来看信息。信息就是指对于运维数据的基本门类的粗加工或者说单元的加工能力。这里面又包括了4个门类。告警数据第一个门类是对运维数据中间最重要的一种能力,也就是告警数据。告警是我们运维人员之眼。也就是说运维想要看到问题,多半绝大多数是..原创 2021-02-24 17:14:11 · 351 阅读 · 0 评论 -
#老杨说运维# 2021GOPS演讲实录(二)运维数据中台的三种必备能力
老杨的话#中翻中#:智能运维的数据中台,不具备以下三种能力就是耍流氓那么怎么样去提升认知能力?就从4个层面或者从应该说4个信息的提炼层面,首先第一点,我们要来看说我们的运维数据从哪里来?其实是从传统运维中来的,从传统运维的多样化的运维工具系统,还有一些设备对吧?应用中间来。这些多样化的数据其实是需要经过三类的处理。第一类处理是非常重要的,就是因为数据量大,所以对于大数据量的这种十九化的方式,是要先想明白的。有日志的持久化的方式,键值数据,指标数据有指标数据的持久化的方式,然后告警...原创 2021-01-21 12:02:47 · 475 阅读 · 0 评论 -
#老杨说运维# 2021GOPS演讲实录(一)传统IT运维工作的四大挑战
视频地址:https://v.qq.com/x/page/y3221i0z30q.html (尝试插入,报错未成功,还得再试试)文字版 ——我们的行业客户其实已经分布在包括像金融服务领域的,银行、保险、券商等行业。其实在18年以后,特别19年也出现了多样化的一些行业,包括电信、政府、制造业、能源等等,其实现在都开始有探索智能运维的必要。为什么是这样?我想分4个方面来给大家解释。一方面我们来谈一谈为什么企业会需要智能运维?本质上还是因为企业身处在一场数字化转型的洪流之中,越来越多...原创 2021-01-15 16:24:17 · 662 阅读 · 0 评论 -
智能运维AIOps建设手册下载(2020.11)
公司更新了2020.11的《智能运维建设手册》。从建设路径到实际产品架构均有讲述。下载地址:https://download.csdn.net/download/dazuibar/13582518#智能运维# #AIOps# #IT集中监控#原创 2020-12-10 11:50:02 · 342 阅读 · 0 评论 -
智能运维中指标分析的作用:跟看病时首先要验血一样
公司内部培训中的一个主题,企业为什么需要夏洛克指标解析中心、又为什么需要日志精析中心、告警辨析中心来进行智能运维建设呢?咨询顾问讲师给举了个特别形象的例子:IT运维工作,实际上跟医生看病的过程特别像。身体不健康了,就要把症状描述给医生听,再做一系列检查,最后由医生判断哪里是根因,再进行治疗。那么,在整个智能运维体系中,告警是触发排障工作的最重要来源,而指标的分析,就好比看病时的第一步“验血”。它可以快速判定问题出在哪些指标,从而为下一步做什么分析指明方向。但跟验血一样,指标也很有局限。我们没原创 2020-12-07 18:23:18 · 207 阅读 · 0 评论 -
#老杨说运维# 夏洛克AIOps的架构图(2020.11)
从2016年Gartner提出AIOps概念后,经过几年的发展,慢慢有了相对清晰的架构。实践证明,分这样三层,可以有效处理数据并在数据中台上随时叠加多个应用场景。最底层是统管全部数据的数据处理层,包括所有组件、设备、第三方监控等的数据,根据使用者的设置要求统一采集存储。数据治理层最主要的能力也有三个。一个是流式处理,只有这样的能力才可以达到秒级处理,为异常预警争分夺秒;第二个是AI智能化算法,可以对数据进行建模、对算法进行训练、达到机器学习的效果;第三个是运维大数据处理,具有大数据的处理能力。经过原创 2020-11-17 17:19:00 · 1086 阅读 · 0 评论 -
#老杨说运维# 装了不少监控工具,比如Zabbix,告警信息和监控指标集中管理了吗?
老杨说,现在很多的企业,对于IT运维工作,都安装了不少监控工具。比如普罗米修斯啦、Zabbix啦、甚至也有不少IOE的产品。但大多数企业首先会把告警的数据进行集中管理,这样便于及时发现IT系统可能存在的问题。但监控的各项指标数据,则依然存放于各个监控工具内,不到告警的阈值不会引起注意。而智能运维的建设,则需要把监控的指标数据也统一管理起来。这样既可以通过AI算法来尽早发现还没有触发告警的异常,也可以在排障时将多个系统的指标放在一起处理分析,大大缩小MTTR(平均排障时间)#老杨说运.原创 2020-10-20 16:56:14 · 146 阅读 · 0 评论 -
#老杨说运维# 把各种IT运维指标数据,以指标资源池方式统一处理
夏洛克AIOos的各项产品,越来越多将数据和智能应用场景区分开来。这样做的好处显而易见。对于IT运维指标数据,也建立了类似的处理流程。来自多个IT设备的数据(比如业务分析数据、APM的应用监控指标、自采的架构监控指标、日志数据、第三方软件...),不再逐一分析,而是先通过实时数据流处理平台,将数据规整后存储到“指标管理池”内,再在此技术上建立模型。在指标数据上面建立的场景应用可以是 “监控”“告警”“异常分析”“容量分析”“根因定位”,乃至生成统一的业务视图、仪表盘、大屏。#老杨.原创 2020-10-16 13:33:18 · 607 阅读 · 0 评论 -
华为工程师的GOPS运维笔记
9月底深圳开了场专门运维的技术会,很多运维相关的工程师去听去看。公司参与了智能运维AIOps场的演讲(好几个分会场都跟AIOps相关,就知道这个词现在在运维领域里有多热火了)。没想到还有参会的华为工程师在网上分享了他的心得,对擎创的架构印象最深。把运维数据中台化,再在上面搭建各种应用,未来也是个方向吧原文可自行百度...原创 2020-10-15 11:47:51 · 242 阅读 · 0 评论 -
复旦大学王鹏教授:智能运维算法场景探索:落地三要素
近期,复旦大学计算机科学技术学院教授王鹏在深圳某会的AIOps最佳实践及解决方案专场,讲述了他作为时序数据算法专家对智能运维算法场景的理解。“智能运维在国内发展已经是如火如荼,甚至出现过度炒作的现象(如宣称拥有完整的解决方案、通用的大而全的算法),但是在场景落地能力方面目前仍然十分欠缺。实际上,智能运维的落地,除了需要考虑算法的设计能力之外,还应该考虑对运维场景的理解能力,以及平台的工程化能力。 算法的设计能力。客户的需求是个性化的,我们需要设计针对性的算法。此外由于生产环境不同,客户的数据也原创 2020-09-29 17:15:13 · 1238 阅读 · 0 评论 -
#老杨说运维#智能运维的终极作用,是提升综合运营分析的能力
把指标数据读入后,进行处理并存储在“指标管理池”,便于进行各种后续处理。原创 2020-08-28 15:11:42 · 311 阅读 · 0 评论 -
#老杨说运维# 指标监控的智能化改造,智能运维攻坚战之“道”
2020.08.26(周三)晚上20:00本期主要分享的话题:1.综合运营分析的挑战2.指标管理池构建对于指标数据治理和运营分析的重要意义;3.如何从业务视角洞察指标体系的健康度4.业务运营问题的指标波动分析和根因推荐#老杨说运维#...原创 2020-08-21 17:22:47 · 181 阅读 · 0 评论 -
大概这就是“无监督学习”的机器学习算法实例
开会时有老大提到,用于智能运维的算法有不少是有监督学习,在一定规则下学习出适用的场景模型。而我们需要做的“无监督学习”算法,难度则要大不少。对于我们这种算法小白,虽然理解了有监督和无监督的区别,对于无监督到底是怎么学习的还是有点云里雾里。直到前几天看到一张算法学习的图,才略有点明白。挺有趣的:如图中所描述,无监督学习也是分一段段时间的。第一阶段开始根据读入的数据初始建模。建完后继续学习,这时有突增的异常发生,使得变宽。原先初始阶段建的模不好用了嘛... 结合成新的模型检测暂.原创 2020-08-18 16:21:22 · 1291 阅读 · 0 评论 -
数字运维中台,将数据“化繁为简”真心不简单
在智能运维领域做了越来越多项目后,感觉大量的国内企业要用好智能运维工具,首先要把数据治理好。(前些日子电视里说,有些农村妇女经过培训当上了“数据标注师”,大量廉价人力的供应,或许真是中国大数据行业弯道超车的机会呢!)所以我们把与智能运维数据相关的功能剥离出来,这部分都以“数字运维中台”的形式集中处理。真不是件容易事...原创 2020-08-07 11:48:08 · 956 阅读 · 0 评论 -
智能运维(AIOps)的核心技术栈大全
公司CTO在2020年04月时一个演讲里提到的智能运维核心技术栈。细看看,真不少。做toC产品时,完全想不到toB的软件如此复杂。hadoop、Elasticsearch、Spark、kafka、Vertica、Mesos、Apache、Flink...已晕...原创 2020-07-27 14:27:24 · 1194 阅读 · 0 评论 -
智能运维AIOps建设的困惑和锦囊 六之六:智能运维现在就能替代传统监控?(APM等)
在描述智能运维的前景时,我们常常会幻想它的终极场景:机器不休息地跑啊跑,异常预测、自动排障... 运维人员在旁边悠闲地喝茶学习,偶尔提供点解决方案就可以了!梦想很美好,可惜实现的路还很长。就像手机的发展历程,20年间,经历了多个功能的赋能,慢慢集成成今天看到的样子。建议的智能运维建设之路是:现有的监控数据,用智能运维的分析平台来归整分析 在进行集中监控(系统网络监控、或者应用性能监控APM等)改造时,同时引入智能运维能力 以事件的集中和智能管理整合多样化监控指标、日志异常智能.原创 2020-07-23 11:32:58 · 340 阅读 · 0 评论 -
智能运维AIOps建设的困惑和锦囊 六之五:智能运维=日志大数据分析吗?
最近情况变了一点。记得两年前,只要是智能运维的项目,大部分都是日志。似乎上日志分析系统是智能运维的第一步。事实上,在我们协助建设智能运维系统的多家客户中,日志只占了其中一半不到的量。日志数据,可以通过日志平台来存储、分析,但传统的日志处理偏向于事后分析,来找出问题的异常。智能运维则借助于数字运维中台的能力可以抓取实时数据来进行事中监控甚至是事前预判。有不少其他方式的监控数据无法判断的问题,换用日志分析,会更容易得到结果。智能运维,会用到日志,但也不仅仅是日志。...原创 2020-07-17 16:00:36 · 508 阅读 · 0 评论 -
智能运维AIOps建设的困惑和锦囊 六之四:DevOps建设和智能运维建设之间有什么区别或关系?
企业需要先建设DevOps吗?看起来DevOps和AIOps之间并无冲突。一个注重于将已有的运维事务标准化(做得好也不容易);一个注重于决策选择。有标准化后的数据最好,没有也可以利用现有系统的日志、指标等来进行分析。如果企业还没有进行DevOps的建设,那可以从运维场景智能化先入手。如果企业已经有完善的DevOps,则可以在其建设中融入智能化的处理能力#老杨说运维#...原创 2020-07-09 14:14:12 · 587 阅读 · 0 评论 -
智能运维AIOps建设的困惑和锦囊 六之三:有多少运维数据,可以先建多少场景用起来
前几天看到一篇德鲁克管理学院的文章,叫“先干起来,你就赢了50%的竞争者”。这句话说起来很是轻松,但在做产品、做企业决策时,我们总是怕自己做了不是最佳的决定,而讨论来讨论去,迟迟不敢迈出第一步。实际上,只要投入不是完全浪费、也不是不可补救,闭门造车八成造出来的不是什么好车,只有先做一个非“想象中的完美品”,交于市场打磨,才会让产品越来越契合市场的需求。同样,智能运维的建设也不是一蹴而就。大而全、基础好的企业,自然可以高举高打,凭借完整的数据储备,在其上发展出超多的智能运维场景。而小企业,在数据量还没原创 2020-07-06 14:21:59 · 333 阅读 · 0 评论 -
智能运维算法:周期性异常检测易,非周期性异常检测难
我们在给企业客户做智能运维系统演示时,总会发生演示环境时很容易就能展现出算法的结果,看着也很漂亮,让人惊叹。但一段时候后接入真正的生产环境,用算法来进行检测就没一开始那么准了,靠AI算法打天下的情形无法复现。对比后得知,演示环境中因为数据有限,很多业务指标的异常只需要周期性异常检测就能发现,这个算法并不难而真正的生产环境,会有很多非周期性的基础架构指标。因为这些指标的异常不具备周期性,检测就很难准确,需要根据各种数据的情况再调整具体的参数和检测方法:调参对算法的实际应用来说,非常耗费功夫原创 2020-06-30 16:23:24 · 1680 阅读 · 2 评论 -
智能运维AIOps建设的困惑和锦囊 六之二:感觉高大上,企业运维成熟度不高的要怎么办?
在展会上遇到很多企业,对智能运维感兴趣,但往往一想到自己企业的IT情况,又不太敢深入研究。有些是觉得以后企业大部分系统上云了,自有云服务商来进行保障;也有些觉得自己的IT运维数据还不完善、成熟度不高,一时不敢考虑。从智能运维的建设节点来看,无论在数据处理能力维度和数据类别维度,都有各自交叉点可以做的事情。比如:只有小规模服务器数量、上面的应用也不多,那么不妨先建设监控和告警工具。等初步的系统有了之后,哪天系统规模变大时,就可以直接无缝升级集中监控和集中告警。再比如:法律法规要求日志等数据必须归档原创 2020-06-28 14:48:14 · 350 阅读 · 0 评论 -
智能运维AIOps建设的困惑和锦囊 六之一:智能运维 = 机器学习算法?
当企业想要部署智能运维系统的时候,常常最疑惑的是:以企业现在的IT系统/数据中心情况,应该从哪里入手,怎么做才可以人力物力的投入未来三五年持续产生应有的价值?首先能想到的方法,是上网研究一下智能运维如何建设,找相关的厂商来交流。不过因为不同的厂商,都会根据自己的优势宣传侧重点,跟着走容易跑偏。最近,我们在对多家客户调研的基础上总结了常遇到的六大困惑和锦囊妙计。这篇是锦囊一“智能运维=机器学习算法?” 智能运维AIOps,顾名思义,一定是跟智能和AI算法有关,但跟机器学习算法不能等...原创 2020-06-22 16:49:15 · 620 阅读 · 0 评论 -
政务云部署案例 | 基于Docker容器的数据实时采集
这两天正在学习K8s的内容,才知道K8s和Kubernetes之间的关系。同样属于容器,于是联想到一年前公司程序员小哥哥给讲的某个政府客户那里与众不同的Docker容器下的数据实时采集解决方案。1. 现状及痛点本文中所说的“政务云”,上海的企业几乎每天都用。对外应用端的名字叫“一网通办”。一开始做这个项目的时候,没想到数据的实时采集会成为整个部署中非常重要的一个技术难点。政务云部署的是Docker容器化管理,更需要将IT运维工作智能化,以便应对业务压力。但与传统的虚拟机Agent方式进行数据采集原创 2020-06-15 16:03:48 · 2270 阅读 · 0 评论 -
用户实例故事 | zabbix监控不到位,AIOps工具也能补
特别喜欢听项目上的工程师们讲故事。常常我们给产品设想好应该这么用应该那么用,到了客户正式环境都会有新变化,还真能给用出点原先没想到的功效来!这个小实例来自于某证券交易所 (嘿嘿,好像国内也没几个大的交易所,就是其中的一个)发生时间:2019年冬天生产环境的状况是这样的:有很多太分散的指标。有npm、bpm平台的,有zabbix(每个中心一个zabbix)平台的,有opmanager平台的,有蓝鲸的,有LDDS平台的,有DCE平台的,等等等... 当然告警也是分散的。想象一下好多系统都有自..原创 2020-06-08 14:13:47 · 307 阅读 · 0 评论 -
数据中台叠加微服务,可能是智能运维的方向吧
疫情期间哪里也去不了,便有了时间看看书、听听相关的线上直播。阿里那本著名的《企业IT架构转型之道》里讲述了数据中台的零零总总;后来也遇到替大企业做IT咨询服务的大拿,说起一些企业在建设上的投入,那真得是有资源、有决心才行。比如CMDB,大家都知道完全部署好了很有用,但做得好的人家极少。而数据中台,听说招商银行用了几年,终于打通了它的数据,可以用唯一关键字串联所有的业务、非业务数据。数百人的团队、几年的努力,现在数据中台架构弄好了,传统银行终于可以像互联网公司一样,无论用户有什么操作,都事无巨细记录追踪原创 2020-06-05 11:57:22 · 1001 阅读 · 0 评论 -
运维这个岗位未来还有更深的路嘛?智能运维时代,工程师要怎么应对?
文章中提到智能告警将渐渐不再是一个简单的“阈值”。AI智能算法能自动生成动态基线,从而协助运维工程师更好地面对各种机器指标数据和状况首先可以肯定的是:未来的运维发展一定是走“智能运维”方向。目前国内智能运维发展还处于一个探索阶段,要想尽快在智能运维领域有所突破,首先要主抓好监控系统和告警系统,并利用机器学习算法进行快速监控和排障。现在比较明确的是大家会朝着智能运维方向发展,并且智能运维的发展一定是一个长期演进的过程。对于智能运维的发展预测:第一步就是智能运维在告警系统上的价值。第二步转载 2020-06-03 16:32:39 · 517 阅读 · 0 评论