系统运维管理小记

无名无姓某罗

已于 2022-09-01 09:26:45 修改

阅读量1.1k

点赞数

分类专栏：工具使用文章标签：运维桌面安全

于 2022-08-30 11:12:09 首次发布

本文链接：https://blog.csdn.net/u013948083/article/details/126599064

版权

17 篇文章 1 订阅

订阅专栏

系统运维，是一个可小可大的岗位。尤其是自动化运维、和系统复杂度都日益增加的今天，学会管理运维工具，衡量什么时候做什么事情显得更加重要。

首先是日常运维。这里包括：

业务操作问题中，也包括可以复现和一过性（不能复现）的。简单总结如下，具体看各单位 / 部门的合规程度来执行：

然后是基础设施（网络 / 访问策略）的问题排查。这里不详细展开。但是 windows 平台下，排查下是否错误设置了网络代理 / 网关设置丢失 / 用 ping -t 排查某个地址的网络抖动 / 用 netstat -ano 排查进程占用的端口，就可以找到大多数的根源。

最后是培养系统用户自行判断、自救的本领。用户对线上的业务流程较为熟悉，发现哪里不对劲的 “第一描述” 是需要运维人员引起重视的。在用户提供了描述的情况下，需要结合系统平日的表现判断是某些单据的问题、还是系统模块出错等。利于节约运维人员资源的办法是：

服务器运维主要的工作有三个：硬件和网络排查、软件配置维护、定期巡检。

硬件和网络排查常见于非开放源码的系统。特别是各种上古系统、出问题的时候外围设施的锅经常有。在允许的情况下，一般自己动手关机重启、或者弄下网线看下灯亮否。
软件配置维护需要熟悉供应商提供的运维 / 开发手册。按照既定步骤开展软件设置、并注意将历次操作产生的问题进行记录，以便还原问题和咨询供应商。当然，一些数据库的常用端口、用户权限配置步骤、服务器日志的位置也要提前掌握。
定期巡检其实是上述两项的综合，主要检查服务器是否存在一机多用 / 开放了危险的端口（FTP / 共享目录 / 21 端口等）；检查数据库是否有关键业务的慢查询 sql 语句；以及必要的日志清理和迁移，避免生产机器磁盘撑爆。针对用户的反映，重点排查对应模块的系统占用情况和堆栈信息。这部分工作需要掌握常用的集中监控工具、sql 分析工具、Java 等语言的日志分析工具等。

（完）