运维工作的“本手、妙手、俗手”

本文探讨了运维管理中的"本手"、"妙手"与"俗手",强调了基础管理的重要性。目前大部分运维仍依赖人工记录,即"本手",但这种方式存在效率低下和信息传递问题。为实现"妙手"运维,即高效精准的管理,提出利用专业管理工具结合网管软件,实现物理层与逻辑层的双重管理,通过智能化手段提升运维效率和准确性。同时,避免"俗手",如过度依赖硬件设备升级,应寻找适合现有环境的解决方案,以降低成本并确保系统稳定性。
摘要由CSDN通过智能技术生成

本手、妙手、俗手是围棋的三个术语。本手是指合乎棋理的正规下法;妙手是指出人意料的精妙下法;俗手是指貌似合理,而从全局看通常会受损的下法。对于初学者而言,应该从本手开始,本手的功夫扎实了,棋力才会提高。一些初学者热衷于追求妙手,而忽视更为常用的本手。本手是基础,妙手是创造。一般来说,对本手理解深刻,才可能出现妙手;否则,难免下出俗手,水平也不易提升。

以上材料对我们颇具启示意义。请结合材料写一篇文章,体现你的感悟与思考。

以上内容正是今年广东省高考语文作文考题,此题目一经流出,引得社会一片哗然,主题着实让人眼前一亮,词条更是霸占热榜旧居不下。高考不仅是国家选贤与能的大事,亦是国家价值观、人生观和家国意识的引导的体现。

借此契机,浅谈《运维管理的本手、妙手与俗手》 

运维管理目标

作为运维工作者最关心的首先是如何通过预防性手段减少设备出现宕机、故障等问题造成业务中断,其次是如何实现发现问题马上告警或是重点链路重点保障,定期引导查看,这样就算出现问题也可以避免重大事故,最后就是一旦发生故障,如何快速精准的排障,将损失降到最低。

一切为了业务而服务,“更安全、更准确、更及时”正是我们运维核心价值的体现。

运维管理背景

运维的工作较为繁杂,大型的互联网公司通常将运维方向分为:应用运维(SRE)、系统运维(SYS)、运维研发(DEV)、数据库运维(DBA)、运维安全(SEC)五大方向。 但无论在运维的哪个岗位,都逃离不开资产相关工作。

系统运维工作职责包含负责数据中心基础服务的建设以及资产管理,网络基础设施选型、交付和维修。对应的需要管理到所有网络基础设施的物理信息,包括数据中心网络基础设施分布情况、设备配置信息、对应厂商资料、设备IP等各种资源情况,以此确保数据中心建设可以满足业务需求。

应用运维同样也离不开服务及资源管理,要时刻掌握负责业务及业务之间的关联关系,业务依赖资源关系,以便可以及时发现故障问题产生预警,又或是出现问题第一时间响应,安排相关人员联合排障。不仅如此,还要对各设备资源进行管理,梳理资源状况、业务承载,要做到合理分配使用,根据不同业务的需求,分配不同配置的网络基础设施,确保资源能被充分利用。并在日常工作中要不断排查点位,发现问题,及时追查,排除隐患。

同样运维研发、数据库运维、运维安全相关工作都是建立在网络基础设施上面的,没有物理基础设施作为依托,以上都将成为空谈。

由此可见,网络基础设施的管理可称之为运维工作重点之一。本文将针对这部分工作,浅谈“本手”、“妙手”与“俗手”。

现状--“本手”运维 

目前大部分数据中心选用都是excel表格结合CAD图纸、手工记录数据等方式对网络基础设施资源进行记录,这种“人工记录”的管理方式,我们可将其称之为“本手”。但是“本手”的操作也随之暴露一些问题,比如设备量大、资源信息维度广、人员流动性大,如想实现网络基础设施物理层精细化管理,势必要投入大量的人工成本,最终造成过度依赖资深运维工程师、人工时间成本消耗巨大、记录方式差异化、数据口口相传等问题。 

那么针对运维管理,有没有“妙手”呢?更大限度的减少设备故障,重点业务更加精准的保障,发现故障更加及时的告警。答案是肯定的,随着数据中心行业发展,本手的管理方式虽能勉强满足管理需求,但其成本代价高昂,如果有智能化手段介入配合管理方式的优化,那么是不是可以更加高效、快速的实现运维管理,我们可将其称之为“妙手”。

如何实现“妙手”运维

现在针对有源设备状态管理已经有网管软件的接入,“妙手”真正要解决的问题其实是无源设备以及资产各个维度信息的管理,在现有运维模式上优化,比如如何减少设备故障?如何快速的将设备端接信息记录清楚?如何快速的为排障、保障工作实现数据支撑?如何将网络基础设施资源充分利用、合理优化?如何在保障业务安全平稳运行的同时,实现“更安全、更准确、更及时”的目标。

我认为可以利用专业管理工具结合网管软件相辅相成,实现以物理层为基础,结合逻辑层管理,物理+逻辑双腿走路,将原先记录在excel表格上的资产信息,以可视化的形式展现在网络基础设施管理平台,通过智能化手段管理,从而实现减少故障,提高系统安全可靠性,排障更加精准,效率大大提升。

关于运维工作与nVisual

nVisual就是这样一个以运维部门在日常运行维护管理流程为核心,以事件跟踪为主线,以解决IT运维管理中的八大管理问题为目的(事件管理、问题管理、变更管理、维护管理、故障管理、场地配置管理、设备生命周期管理、应急管理、质量管理、成本管理和安全管理),为企业提供一个高效、规范的网络基础设施管理平台。不仅可以满足运维工作日常对网络基础设施资源管理的需求,并可以通过邮件、手机短信等形式对责任人进行阶段提示,以此规范运维工作流程,提高系统维护的服务响应效率。 

以PDCA循环的方式实现网络基础设施系统管理

  • ​P (计划 PLAN) :从问题的定义到行动计划

  • D (实施 DO) :实施行动计划

  • C (检查 CHECK) :评估结果

  • ​A (处理 ACT) :标准化和进一步推广

先利用网络基础设施管理平台针对需求完成资源(占用位置、占用设备、占用线缆等)分配(计划),以工单的形式通知实施人员按计划执行,完成实施后系统校检实施情况,最后根据实施情况进行下一步分配。

nVisual不仅可以辅助日常业务上架等工作还可以通过信息整合,实现对各种资源的综合管理,包括各种静态资源、基础资料、备品备件资源的有效管理。从而全面提高运维部门运行维护的快速响应能力,同时也为业务知识积累和业务考核建立了完善的数据模型。此外,系统可以自动做出多种分析报表,不仅可以有效评价IT部门人员工作效率和强度,而且能够实时、动态、统一的了解所有软、硬件系统的运行、维护情况。

这样“物理+逻辑双腿走路”的运维管理方式可以大大减少人的重复工作,降低知识传递的成本,使我们的运维交付更高效、更安全,使产品运行更稳定,且对于重点业务建立起了重点保护重点巡查机制,由事后处理变成提前发现,由人工处理变成系统自动发现,由手动巡查故障点变成了直接展示故障位置,减少排障时间。怎能不称之为“妙手”呢?

关于俗手的思考

最后,再浅谈一下目前运维工作的“俗手”,其实针对网络基础设施物理层管理的痛点问题一直存在,有很多单位也想到了引入智能化手段,尝试减轻运维工作压力,但是选用的确是增加硬件设备,如电子配线架。目前我国数据中心建设已经发展到了一定规模,存在很大体量的老旧数据中心,增加硬件设备势必要中断业务,且由于电子配线架需要双配,在数据中心等同于增加了一个故障点,只实现了对设备直接链路连接关系的管理,对流程、事件、历史故障、变更信息、发布信息、运行情况、知识记录、综合分析等方面还是缺乏管控,最后还提高了建设成本,这样的管理方式是不是可以称之为弄巧成拙的“俗手”呢,值得我们探讨。

结束语

期待每一位运维工程师都能找到属于自己的“妙手”,为企业提供“更安全、更准确、更及时”的运维服务。

深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

nVisual

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值