运维工作的“本手、妙手、俗手”

最新推荐文章于 2023-02-26 13:36:41 发布

nVisual

最新推荐文章于 2023-02-26 13:36:41 发布

阅读量395

点赞数

分类专栏：数据中心布线文章标签：数据中心网络基础设施管理网络可视化运维管理

本文链接：https://blog.csdn.net/NWVDI/article/details/125448306

版权

数据中心布线专栏收录该内容

17 篇文章 0 订阅

订阅专栏

本文探讨了运维管理中的"本手"、"妙手"与"俗手"，强调了基础管理的重要性。目前大部分运维仍依赖人工记录，即"本手"，但这种方式存在效率低下和信息传递问题。为实现"妙手"运维，即高效精准的管理，提出利用专业管理工具结合网管软件，实现物理层与逻辑层的双重管理，通过智能化手段提升运维效率和准确性。同时，避免"俗手"，如过度依赖硬件设备升级，应寻找适合现有环境的解决方案，以降低成本并确保系统稳定性。

摘要由CSDN通过智能技术生成

“本手、妙手、俗手”是围棋的三个术语。本手是指合乎棋理的正规下法；妙手是指出人意料的精妙下法；俗手是指貌似合理，而从全局看通常会受损的下法。对于初学者而言，应该从本手开始，本手的功夫扎实了，棋力才会提高。一些初学者热衷于追求妙手，而忽视更为常用的本手。本手是基础，妙手是创造。一般来说，对本手理解深刻，才可能出现妙手；否则，难免下出俗手，水平也不易提升。

以上材料对我们颇具启示意义。请结合材料写一篇文章，体现你的感悟与思考。

以上内容正是今年广东省高考语文作文考题，此题目一经流出，引得社会一片哗然，主题着实让人眼前一亮，词条更是霸占热榜旧居不下。高考不仅是国家选贤与能的大事，亦是国家价值观、人生观和家国意识的引导的体现。

借此契机，浅谈《运维管理的本手、妙手与俗手》

运维管理目标

作为运维工作者最关心的首先是如何通过预防性手段减少设备出现宕机、故障等问题造成业务中断，其次是如何实现发现问题马上告警或是重点链路重点保障，定期引导查看，这样就算出现问题也可以避免重大事故，最后就是一旦发生故障，如何快速精准的排障，将损失降到最低。

一切为了业务而服务，“更安全、更准确、更及时”正是我们运维核心价值的体现。

运维管理背景

运维的工作较为繁杂，大型的互联网公司通常将运维方向分为:应用运维（SRE）、系统运维（SYS）、运维研发（DEV）、数据库运维（DBA）、运维安全（SEC）五大方向。但无论在运维的哪个岗位，都逃离不开资产相关工作。

系统运维工作职责包含负责数据中心基础服务的建设以及资产管理，网络基础设施选型、交付和维修。对应的需要管理到所有网络基础设施的物理信息，包括数据中心网络基础设施分布情况、设备配置信息、对应厂商资料、设备IP等各种资源情况，以此确保数据中心建设可以满足业务需求。

应用运维同样也离不开服务及资源管理，要时刻掌握负责业务及业务之间的关联关系，业务依赖资源关系，以便可以及时发现故障问题产生预警，又或是出现问题第一时间响应，安排相关人员联合排障。不仅如此，还要对各设备资源进行管理，梳理资源状况、业务承载，要做到合理分配使用，根据不同业务的需求，分配不同配置的网络基础设施，确保资源能被充分利用。并在日常工作中要不断排查点位，发现问题，及时追查，排除隐患。

同样运维研发、数据库运维、运维安全相关工作都是建立在网络基础设施上面的，没有物理基础设施作为依托，以上都将成为空谈。

由此可见，网络基础设施的管理可称之为运维工作重点之一。本文将针对这部分工作，浅谈“本手”、“妙手”与“俗手”。

现状--“本手”运维

目前大部分数据中心选用都是excel表格结合CAD图纸、手工记录数据等方式对网络基础设施资源进行记录，这种“人工记录”的管理方式，我们可将其称之为“本手”。但是“本手”的操作也随之暴露一些问题，比如设备量大、资源信息维度广、人员流动性大，如想实现网络基础设施物理层精细化管理，势必要投入大量的人工成本，最终造成过度依赖资深运维工程师、人工时间成本消耗巨大、记录方式差异化、数据口口相传等问题。

那么针对运维管理，有没有“妙手”呢？更大限度的减少设备故障，重点业务更加精准的保障，发现故障更加及时的告警。答案是肯定的，随着数据中心行业发展，本手的管理方式虽能勉强满足管理需求，但其成本代价高昂，如果有智能化手段介入配合管理方式的优化，那么是不是可以更加高效、快速的实现运维管理，我们可将其称之为“妙手”。

如何实现“妙手”运维

现在针对有源设备状态管理已经有网管软件的接入，“妙手”真正要解决的问题其实是无源设备以及资产各个维度信息的管理，在现有运维模式上优化，比如如何减少设备故障?如何快速的将设备端接信息记录清楚？如何快速的为排障、保障工作实现数据支撑？如何将网络基础设施资源充分利用、合理优化？如何在保障业务安全平稳运行的同时，实现“更安全、更准确、更及时”的目标。

我认为可以利用专业管理工具结合网管软件相辅相成，实现以物理层为基础，结合逻辑层管理，物理+逻辑双腿走路，将原先记录在excel表格上的资产信息，以可视化的形式展现在网络基础设施管理平台，通过智能化手段管理，从而实现减少故障，提高系统安全可靠性，排障更加精准，效率大大提升。

关于运维工作与nVisual

nVisual就是这样一个以运维部门在日常运行维护管理流程为核心，以事件跟踪为主线，以解决IT运维管理中的八大管理问题为目的（事件管理、问题管理、变更管理、维护管理、故障管理、场地配置管理、设备生命周期管理、应急管理、质量管理、成本管理和安全管理），为企业提供一个高效、规范的网络基础设施管理平台。不仅可以满足运维工作日常对网络基础设施资源管理的需求，并可以通过邮件、手机短信等形式对责任人进行阶段提示，以此规范运维工作流程，提高系统维护的服务响应效率。

以PDCA循环的方式实现网络基础设施系统管理

P (计划 PLAN) :从问题的定义到行动计划
D (实施 DO) :实施行动计划
C (检查 CHECK) :评估结果
A (处理 ACT) :标准化和进一步推广

先利用网络基础设施管理平台针对需求完成资源（占用位置、占用设备、占用线缆等）分配（计划），以工单的形式通知实施人员按计划执行，完成实施后系统校检实施情况，最后根据实施情况进行下一步分配。

nVisual不仅可以辅助日常业务上架等工作还可以通过信息整合，实现对各种资源的综合管理，包括各种静态资源、基础资料、备品备件资源的有效管理。从而全面提高运维部门运行维护的快速响应能力，同时也为业务知识积累和业务考核建立了完善的数据模型。此外，系统可以自动做出多种分析报表，不仅可以有效评价IT部门人员工作效率和强度，而且能够实时、动态、统一的了解所有软、硬件系统的运行、维护情况。

这样“物理+逻辑双腿走路”的运维管理方式可以大大减少人的重复工作，降低知识传递的成本，使我们的运维交付更高效、更安全，使产品运行更稳定，且对于重点业务建立起了重点保护重点巡查机制，由事后处理变成提前发现，由人工处理变成系统自动发现，由手动巡查故障点变成了直接展示故障位置，减少排障时间。怎能不称之为“妙手”呢？

关于“俗手”的思考

最后，再浅谈一下目前运维工作的“俗手”，其实针对网络基础设施物理层管理的痛点问题一直存在，有很多单位也想到了引入智能化手段，尝试减轻运维工作压力，但是选用的确是增加硬件设备，如电子配线架。目前我国数据中心建设已经发展到了一定规模，存在很大体量的老旧数据中心，增加硬件设备势必要中断业务，且由于电子配线架需要双配，在数据中心等同于增加了一个故障点，只实现了对设备直接链路连接关系的管理，对流程、事件、历史故障、变更信息、发布信息、运行情况、知识记录、综合分析等方面还是缺乏管控，最后还提高了建设成本，这样的管理方式是不是可以称之为弄巧成拙的“俗手”呢，值得我们探讨。

结束语

期待每一位运维工程师都能找到属于自己的“妙手”，为企业提供“更安全、更准确、更及时”的运维服务。