一名运维老兵toB运维的总结

编者按:本文作者是一名在互联网公司工作了多年的运维专家,写本文目的其实只是想给做运维的人看看,gogo姐经作者授权把本文分享给大家!

640?wx_fmt=jpeg

1 只谈运维,不谈工程。

2 第三部分分享,其它无法分享。第二,四部分需要多个IT系统,流程,规则与之配合。

3 非云计算情况下运维,一家之言,仅供参考。

4 曾希望,大量在客户现场系统,在不主动操作和变更情况下,能依赖架构、程序、运维动作可以无人情况下自我运行、自我循环、自动抗住一般问题、故障半年以上。当然因为各种操作和变更,这是不可能的,但可以向这个方向持续实践。

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

 

 

 

 

 

                     三  现场层面运维动作

3.1  资料完整性,准确性

1 无论用excel,word,运维工具,运维平台,PPT,visio等,各种相关文档完整性,准确性是非常重要的。

2 机房平面图,机柜面板图,机房、机柜具体位置。

3 主机名称,硬件型号,IP,用户,密码,机柜位置,设备序列号,设备上线时间,初验时间,终验时间,合同号,维保合同号,过保时间,运行应用程序。

4 网络设备端口表。

5 各种SSH、URL、客户端、ORACLE,应用程序等登录用户,密码。

6 IP地址包括:固定,浮动,内网,外网。

7 组网图,标明IP,网内,网外。

8 逻辑图,流程图。

9 各种软硬件版本号,如防火墙,交换机,存储,操作系统,数据库,各种应用。

10 变更记录表。包含原版本,目标版本,解决那些主要问题,操作人,时间。

11 整个系统启动,停止,查看状态命令,包含所有软硬件启动,停止,查看。

12 周边网元,账号,密码,接口方式,协议,IP,端口,服务端,客户端,联系厂家,人员,电话,邮件。

13 应急方案(系统各种应急情况,故障情况的应对措施)

14 联系人表,包括客户,厂家维护人员,维护主管,市场人员,第三方厂家人员,各公司400联系方式。相关人员姓名,电话,邮箱。

15 产品培训文档。

16 产品文档,安装,调试,操作,维护,故障处理,参考,专题,术语等。

3.2  监控

1 监控主机,网络,存储,操作系统,数据库,应用。

2 可以客户端显示告警。

3 分几个级别,重要级别短信,邮件,微信告警。

4 及时,准确。

5 可能有统一监控平台,也可以自定义部分脚本。

思考:

a) 互联网一些云平台可以根据监控的问题,自动进行故障自愈,业务扩缩容。

b) 尽量减少误告警。

3.3  巡检

1 通过运维平台,维护工具,脚本,自动定时巡检,如一天一次,一周一次,一个月一次。

2 可以对主机,网络,存储,应用,数据库进行巡检。

3 每天或每周看一次。

4 有问题尽快处理。

思考:

a) 巡检如个人体检医院,是最重要维护手段之一,必须脚本,工具,平台自动化。

3.4  备份

1 自动本地定时备份,自动上传备份服务器(尽量有存储),自动删除本地XX天之前文件。

2 备份服务器有目录结构,备份各节点配置,数据库,网络等配置,自动定期删除XX天之前文件。

3 备份系统软件,平台安装软件,文档资料,产品手册等等。

4 尽可能有两台备份服务器,异地更好。定期备份一次。

5 最好个人有移动硬盘能备份。

6 通过脚本,工具,运维平台自动备份。

其它注意事项:

a) 备份是最重要维护工作之一,不管是传统IT的备份,还是云平台上的镜像,都是出问题时,恢复业务的关键方法之一。

3.5  双机,集群

1 所有重要设备都是双机或集群,防火墙双机,交换机双机,负载均衡器双机,数据库双机,核心业务双机,核心业务集群,网络核心设备分布在两个相邻机柜,双电源,四电源。

2 多地多机房。

3 核心业务,可以多套同时对外服务。

思考:

a) 云计算上,如果规模大,同样多地部署。

3.6  冗余

1 如果所有设备只在一个地方,如一个机房,一套网络设备下,那么建议核心部件建冗余系统。

2 冗余系统可以为单机,多机。

3 核心业务,数据库等,可以做冗余系统。

4 一旦核心业务、数据库等故障,无法恢复,可以用冗余系统改IP,启动服务就可以。

思考:

a)  云计算上,冗余容易些,虚拟机或容器镜像就可以。

b) 重要系统建全部冗余系统,可能几十台,几百台设备。

3.7  跳转机,堡垒机

1 尽量有两台跳转机或堡垒机。

2 各种应用客户端安装在堡垒机上。如运维平台客户端或页面,SecureCRT,Xmanager,P/L SQL,巡检工具,FTP,浏览器,存储,网络设备维护工具等等。

3 采用VPN,短信验证或其它方式登录堡垒机,确保认证安全,难破解。

4 WINDOWS7或WINDOWS2008,在外部防火墙和主机防火墙可以开启防护,只开放可以访问端口并且外部防火墙用其它端口映射。

5 简单情况,SecureCRT可以同时访问8-10台。如果设备多,几百,上千,用运维工具或运维平台管理。

3.8  安全加固

1 升级应用程序,补丁。

2 修改配置。

3 规避。

4 所有节点维护端口只对堡垒机,运维平台机器开放,禁止其它机器,包括局域网其它机器可以访问。如SSH 22端口,FTP 21端口,数据库1521端口,页面80端口等。

5 Oracle的sqlnet.ora,主机hosts.allow,NTP的ntp.conf等都可以限制IP。

6 iptables。

7 漏洞端口本地iptables封堵,或程序停止服务。

思考:

a) 安全加固引起无数问题,故障,事故。

b) 安全只能达到一个平衡,不能做到所有都安全加固,否则无法维护。

c) 城墙被攻破是最薄弱那个点,其它地方加固再强,也可能被攻破。需要一个平衡。

d) 尽量在网络层,传送层就限制住攻击,不在应用层与攻击者PK。就是IP,或IP+端口进行限制。

e) 硬件防火墙,交换机流策略或ACL,主机iptables,应用配置,应用的IP,用户,密码认证,都是安全防护手段。

3.9  过保或停止服务设备统计

1 一些硬件,软件已经过了维保期,客户没有买服务,或原厂不再提供维保。

2 主机,网络,存储,操作系统,中间件,数据库,应用等,都进行统计。

3 告知客户。

4 推动买维保,推动更换设备,升级软硬件。

5 应急方案要准备好。

3.10 系统隐患排查

1 硬件隐患,单机,软件隐患,无后续版本,license到期,无人员,无厂家支撑等等。

2 告知客户。

3 推动更换。

3.11 用户密码

1 从维护角度,一个人维护200-400服务器(主机),50台网络设备,50台存储,3-8个系统,大量子系统,50套数据库。这是比较繁忙的工作,建议每个系统几十台至一百多台设备,只有三至四种密码。

2 堡垒机密码定期修改,内部应用是否定期更换取决于维护规定。

3 一个系统内大量各种样式密码,将大大降低维护效率,即使有运维平台也只能部分提高效率。

4 当出现重大故障,紧急故障,日常问题定位,这些各式各样密码将是噩梦。

5 尽量用运维平台或工具统一修改密码。

3.12 信息收集

1 主机:主机名,CPU,内存,磁盘,网卡,mount点,VG,LV,双机状态,双机脚本,启动脚本,路由,路由文件,after.local,boot.local,raw –qa,内置硬盘是否故障等等信息。

2 网络:收集disp diag。

3 存储:通过存储工具收集存储配置信息。

4 应用软件配置。

5 这些当出现故障,重启,设备更换时,对问题定位有很大帮助。

3.13 启动停止命令表

1 一个人维护系统非常多,当机房停电,或人员变化时,需要一份启动停止查看命令表。

2 当整个系统加电,有明确启动顺序,如网络设备加电启动,存储加电启动,主机加电启动。

3 应用启动命令,查看命令。

4 所有应用停止命令。

5 明确停止顺序。

3.14 及时刷新维护资料

1 日常操作手册,最常见动作。

2 各种系统信息及时更新,如用户密码等等。

3 应急方案及时更新。

4 案例及时总结。

本文来源于网络,版权归原作者所有,如有侵权,请联系删除。

运维干货汇总:

欢迎加入高薪求职大家庭

xmorient

听说进入IT达人圈子的童鞋,运气都比以前好!因为你获得比别人更多的机会,更大的视野!

xmorient

目前IT达人圈有微信群,专门做行业交流,里面有IT公司招聘内推和猎头职位,沟通氛围热烈,是个大群。

xmorient

群目的:IT公司招聘内推、IT人员求职,行业交流聚会等等,目前内推的公司包括互联网、证券公司、IBM、H3C、各大咨询机构、各大IT服务管理公司,另外还有猎头职位。

xmorient

入群要求::IT从业人员,重点是IT管理人员、IT运维人员,IT安全人员,研发人员,仅限于技术人员交流,业务人员勿扰。

xmorient

加群方法:加微信:gogoat01,备注:求职群,公司+职位+姓名+地区,真实的社群才有价值。另外有一些职位,会根据自我介绍推荐

温馨提示:管理员平时比较忙,所以会响应慢点,会集中一段时间处理,请见谅

640?wx_fmt=jpeg
640?wx_fmt=png

编辑:Gogoat

17年IT生涯,非著名IT策划人

擅长连接,最受信赖的IT社区管理员。

职位、干货投稿;加入圈子,请扫一扫

640?wx_fmt=jpeg

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值