如何有效处理数据中心产生的海量日志

数据中心里包含有成千上万的电子设备,这些设备连接到一起就可以灵活部署很多应用业务。然而,这么多设备同时在线运行,不出一点问题是根本做不到的,就是技术最牛的互联网大佬的数据中心也是时不时爆出各种故障。实际上,让外界知晓的故障只是冰山一角,很多数据中心几乎天天都在处理各种各样的问题,只是很多数据中心的业务都有备份系统,故障经常并不会被外界所感知,只有当主备的系统都失效后,并对业务有实质影响之后,才会被外界所知。这么多设备如何维护,如何去分析问题?日志就是最好的解决手段,不管是什么设备,在各种操作或者出现故障时,都会有日志打印,如果能够捕捉到这些日志信息,就可以迅速知晓故障原因,并及时消除,所以设备的日志信息在数据中心的运维中至关重要。不过很现实的问题来了,数据中心里的设备太多,一万台设备如果平均一台一天打一条日志,那都是上万条的日志,靠人力根本看不过来,更不用说分析问题用了,如果利用好日志是很多数据中心运维的人员都希望掌握的技巧。

首先,要在数据中心里部署一台或者多台日志收集的服务器,绝大多数的设备都支持将自己设备的日志信息发送给日志服务器,少数不支持的设备也可以通过服务器周期性自动登陆设备去获取设备日志,然后将日志信息记录下来。为了防止在出现故障时,影响到设备和日志服务器之间的信息交互,最好将日志服务器部署在管理网,这样管理网不走业务流量,业务网故障,并不会影响到管理网里的操作和信息收集。日志服务器也可以部署多台,做日志备份,万一服务器出了故障,有备用设备依然可以保持运行记录日志。这类日志收集软件很多,而且大部分都是开源、免费的,比如:LogAnalyzer、LogMX、BareTail等,这些软件使用起来也很方便。如今人们对数据中心运行的稳定性和解决问题的效率都非常关注,在现在新建的数据中心里,日志服务器已经是一个标准配置项。

其次,简单地将所有设备日志收集下来还远远不够,之前有提到日志条目数是海量的,绝大多数的日志都是无影响的,要对日志信息进行甄别。每个设备都对日志进行了级别标注,包括:提示、告警、严重、致命等级别,不同设备的日志级别大体上都差不多,细节上可能会有一些差别,不会影响到大级别上的判断。根据这些设备日志级别,在数据中心日志服务器上也进行级别分类。比如:如果是提示类的日志,只后台记录,写入到硬盘保存,都查找;如果是告警类的日志,向控制台上打印,给出提醒;如果是严重类日志,直接将告警通过手机短信、微信等方式发送到相关技术和管理人员,以便能得到及时处理。在得到有效消除之前,循环性地发送,一直提醒。这样根据日志级别进行分类处置,可以节省大量的运维工作,抓到最有效的日志,对迅速定位问题、消除故障非常有意义。

第三,在实际应用中,会发现由于日志级别的不够合理性,导致在故障出现时,并没有看到有效的日志,这原因在于很多设备对日志的级别理解与数据中心是有差异的,不同的数据中心部署的业务和系统都有差异,每个数据中心关注的地方也许并不是设备本身所非常关心的,所以很多数据中心会设计一些有分析功能的日志分析软件。从日志信息中提取关键字,根据这些关键字来判断故障的严重性,再进行告警,这些关键字是与数据中心应用密切相关的。比如数据中心的网络部署的是OSPF协议,那么OSPF方面的日志都想了解,就将OSPF作为关键字,在日志信息中搜索,发现有OSPF字样的就打印出来。还有一些日志分析软件做得更为智能,可以做多次搜索,先找到OSPF字样,再看看是否有Peer DOWN/UP字样,如果有再给出告警,如果没有搜索到关键字就不给出任何告警。

第四,设备日志很多时候也无法反映出设备问题,在没有打印出日志告警下,故障依然发生了,所以还需要周期性到设备上采集一些更深入的信息判断设备运行是否正常。很多设备商会提供很多设备故障的信息,比如一些软件、硬件运行异常,这些往往要通过很多内部命令采集信息才能确认,数据中心可以根据设备商提供的方法,通过日志工具周期性地到设备上通过命令采集需要的信息,采用根据收集的信息判断设备运行情况,这样往往可以发现很多日志无法暴露出的问题。还有很多日志分析工具做得更加智能化,可以根据收集的相应信息,到故障设备上自动执行一些恢复指令,如果无效还可以执行业务切换,将业务切到备用系统上来,真正实现自动管理。运维的人员只需要在故障发生并恢复之后,查看历史日志和操作记录就可知道曾经发生过什么,并针对出现过的问题,数据中心哪里有不足的地方进行优化,对可能是某台设备发生了硬件故障,就后续及时将设备进行更换,避免持续对业务造成影响。

对数据中心日志的分析是逐步完善的过程,当每次故障解决后,都要回头看,是否是通过日志分析能找到问题原因,如果不是,就需要将相应的检查信息加入到日志分析软件中来,万一问题再次出现,下一次一定可以通过日志定位并解决问题。如果能将日志充分利用起来,一定可大大缩短数据中心故障处理和恢复的时间,减少数据中心的经济损失,提升数据中心的运维水平。

本文转自d1net(转载)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值