运维可视化|漫谈网络监控可视化

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/g2V13ah/article/details/88360990

640?wx_fmt=gif

作者简介

莫莫    百度资深前端研发工程师

640?wx_fmt=png

负责百度智能运维(Noah)相关产品的前端设计和研发,在运维数据可视化方向有着丰富的实践经验。



干货概览

运维可视化,核心是将所运维的服务、资源、设备的状态和正在发生的事件通过可视化的手段呈现出来,指导运维人员或者产品研发人员做出正确的运维决策。某种程度上,运维与可视化相辅相成,可视化程度越高,运维就越简单,运维效率也就越高

在运维的工作范畴中,实时监控对故障的发现和诊断起到至关重要的作用。今天,我们以监控中的一个重点场景-内网监控,来介绍可视化起到的重要作用。内网指的是一个公司的内部网络,包括机房内部网络和机房间的网络

异常事件可视化

当运维工程师发现自己负责的系统出现故障时,检查网络连接是否有异常,是故障排查流程当中的标准步骤。在这个场景中,工程师需要知道自己的系统所在的机房以及所依赖的网络通路是否存在故障,所以希望内网监控系统提供一个网络故障概览,展示在给定的时间段中相关机房的异常事件。

640?wx_fmt=png

最简单的方式是将所有的网络故障展示在表格当中。如上表所示,每一行代表一个故障事件,第一列表示故障关联的机房,第二列是故障的起止时间,第三列是故障的严重程度。这种展现方式存在以下三个问题:

  1. 不能第一眼看出哪些故障严重,哪些故障轻微;

  2. 不能直观感受到每个故障的持续时长;

  3. 很难知道在某一时刻哪几个机房同时存在故障。

当时间段很长,筛选出的故障事件很多时,表格会变得很长,就更加不利于工程师了解网络状况了。

为解决以上问题,我们需要在机房、时间、 程度三个维度上都能直观的展示故障事件。从时间跨度来想,有点事件流的感觉,似乎可以用事件流图来展示。

640?wx_fmt=png

图1  事件流图

如图1所示,事件流图用一条事件河流来表示事件。河流被横向切分为若干条色带,每条色带代表一个类别的事件。色带的高度(河流的宽度)代表在某个时刻,各类别包含事件的个数。事件越多,河流越宽,反之越窄。

这种事件流图适合展示在一段时间内事件群体的统计变化,而我们需要能够展示每个事件的个体信息。因此,我们对事件流图作了几个修改:

  1. 每个故障事件用一个矩形条表示,矩形条左右两边的位置对应事件的起止时间;

  2. 矩形条的颜色用来区分事件的严重程度,而不是事件的类别;

  3. 关联到某一个机房的故障事件矩形条放在河流的同一个高度位置。如果事件在时间上能完全错开,则将矩形条左右放置。如果事件在时间上有重叠,则拓宽机房所占河流的宽度,将矩形条上下放置。

640?wx_fmt=png

图2  异常事件流图

图2展示了我们的事件流图方案。图中展示了三个机房的异常,其中机房一有一个严重的异常事件(用红色来标识),这个异常事件是一个时间跨度比较长的严重异常事件,机房二有4个轻度的异常事件(用黄色标识),这4个异常是时间跨度比较短的轻度异常事件,机房三有12个轻度的异常事件(用黄色标识),这12个异常事件中也有三个时间跨度比较长的时间。如果鼠标放置在异常事件矩形块上,能查看哪个机房出现异常。通过这个图,工程师可以很方便地看到每个机房的每个故障事件的详细信息,比表格的方式直观得多。


总  结

事件流图, 从机房、时间、异常程度三个维度都能直观的展示故障事件,帮助工程师快速查看异常情况。其实,事件流图还可以用于展示变更事件,甚至可以将变更事件与异常事件组合,让工程师能一眼查看异常事件可能是由哪些变更事件引起的。我们从智能运维场景中抽象出一些可视化组件,比如这里的事件流图组件,再通过前端工程化工具把这些子元素串联起来,构建出前端统一展现层框架, 后面我们会逐一介绍这些可视化组件与框架其他细节,请持续关注我们的AIOps智能运维公众号!

阅读推荐

  运维实践


智能运维架构 | 架构集成 | 网络判障 | 监控数据采集 | 监控报警 | 网络异常 | 分布式监控系统 | 数据可视化 | 单机房故障自愈 | TSDB数据存储 | 异常检测 | 流量异常检测 | 复杂异常检测 | 报警风暴 | 实时计算 | 故障诊断 | 日志监控

  运维产品

百度云BCM | 企业级运维平台 | 基础设施管理引擎 | 运维知识库 | 通告平台 | 百度名字服务 | 业务部署 | 数据配送 | 集群控制系统 | 外网监控 | 内网监控 | 部署变更 | 配置管理

  精品推荐

AIOps全解析 | AIOps中的四大金刚 | 智能运维 | AIOps时代 | 运维演进

640?wx_fmt=jpeg

640?wx_fmt=gif

↓↓ 点击"阅读原文" 【了解更多精彩内容】 

展开阅读全文

云计算下的“运维改革”:可视化

06-28

云计算光环背后 虚拟化运维是关键 rnrn  云计算在成本、速度和功能的增强,吸引着企业高管向云端看齐,同时也推动着企业网络架构发生了巨变。首先,云计算可以把固定成本转变为可变运行成本,而虚拟化又可以通过内部结算的方式进行IT 资源的调配,促使各业务部门更为有效地使用IT 资源。其次,用户在申请计算资源的时候,不再需要等待几天、几周甚至是几个月,从云平台中动态分配的资源,只需要几分钟甚至更短的时间就可以得到。当然,IT部门也不必杂乱无章追赶业务创新,云的扩展性将帮助企业建立一份更长期的IT成长规划。rnrn然而,在云计算、虚拟化无限魅力的背后,如果IT运维管理调整不及,不但工作量不减反增,运维效率还可能会降低。作为国内领先的IT运维管理专家,北塔软件针对虚拟化和云端运维环境进行了广泛调查,其调研结果反应出以下三项需求变化: rnrn  其一,随着虚拟资源池的不断扩展,导致IT运维中需要监控的虚机数量激增,但物理设备之间一一对应的关系却被打散,设备的性能、容量等关键信息在虚拟网络中隐藏,无法实现精准的定位监控。 rnrn  其二,VMwarevCenter中映射图只显示了各虚拟化元素关系,但用户更希望能看到元素的性能、关联、状态等,从整体上主动把握虚拟化环境的健康状况。 rnrn  其三,传统的设备层面监控无法支撑业务的灵活变化,相对于硬件、网络、操作系统等独立的运维对象,业务系统的健康状况无法从运维工具中反映出来,虚拟网络和资源池的优化难度加大。 rnrn  随“虚”而变 实现“可视化”管理 rnrn  基于以上需求,北塔软件推出了智能化、多角度、便捷性虚拟化运维解决方案,帮助企业用户构建“可视化”云计算运维平台,将云端IT运维从底层复杂的技术细节中解放了出来,帮助IT部门把注意力放在相对高级、更靠近业务的工作中去。 rnrn  用“物理拓扑”呈现虚拟环境 rnrn  虚拟化模糊了物理和虚拟、网络和服务器以及数据和存储网络之间的边界,IT运维人员无法清晰的描述对象之间的关联,并由此导致虚机“泛滥”。为此,北塔软件在业内首创了虚拟化环境中的“物理拓扑”,管理员可以等同于物理设备一样管理ESX/ESXi主机、虚拟机、数据存储、虚拟网络。在易用性方面,用户可以延续VMware vCenter中的操作习惯,实时展现虚拟中心、文件夹、集群、ESX/ESXi主机的结构,把抽象的逻辑关系图形化、图表化展现出来。 rnrn  用“业务视图”实现SLA服务 rnrn  “一切皆服务”是云的内涵,每一项业务、每一个用户都应在云端享有最优质的服务,因此,运维平台必须能够将业务清晰化、视图化,将其使用情况、健康状况等呈现给IT运维、业务部门和企业决策层。为了实现这个目标,管理员可以利用北塔BTIM,对物理和虚拟设备的参数从业务运营的角度归类整合,这包括:用户分布数据、环境数据、各类业务数据、业务运行指标数据……让所有业务关键参数投射到业务视图中,在此基础之上构建云端高质量的SLA(Service-Level Agreement,服务等级协议)。 rnrn  IT运维能力的提升,为企业云应用提供了保障,但虚拟化必定或影响现有的基础架构管理工具和日常运营流程。对此,北塔软件表示:集中化和资源池化,是云运维管理与传统运维的区别。所以,云运维管理需要尽量实现自动化和流程化,避免在管理和运维中因为人工操作带来的不确定性问题。而虚机的部署更应创建与其相匹配的流程和规范,依托运维数据,合理的分配资源,从而发挥数据中心的整体能量。 rnrn  责任编辑:余芯 rn 论坛

没有更多推荐了,返回首页