本文从一名网工从业者的角度出发,探讨了在企业网运维过程中,网络工程师可以用什么样的工具让网络更加透明高效。
引言
“网络就像wifi,没有故障的时候,就没有人意识到它的存在”,这句话有无数的翻版,但是对于网络工程师来说这就是现身说法。由于网络工程师的人数即便是在上千人的公司,也仅仅是个位数,所以他们的工作也鲜为人知 。“网络是不是有问题?”这句话几乎成了所有SRE排错时的口头禅,如果这个时候网络工程师表示沉默,或者无法拿出足够的证据,那背锅几乎是无疑的,如何让网络环境的运行状态更加透明,如何在每次业务故障的时候自证清白,这不仅是基础服务团队要关心的内容,更是整个技术团队想要了解的黑匣子。
1、监控
1.1网络设备存活监控
对于SRE来说需要监控程序是否正常,对于主机组来说需要监控服务器硬件是否正常,对于网络来说我们首先需要关心网络设备是否可达。当一台TOR不可达时,基本上预示着会有一片服务器不可达,业务的痛感是相当强烈的。
网络设备的监控最好和业务监控系统尽量解藕,因为网络故障极有可能引发业务系统异常,如果恰巧导致的是业