前言
之前我有写过一篇记录生产环境事故的文章,获得了不少好评。
后续,我们团队有做过一些讨论,为了支撑运营维护,搭建了更好的日志平台Granfa+Loki,也引入了SkyWalking做链路追踪。
但过程中也遇到了一些问题,我会在下面讲述出来,然后将这个简单的小技巧分享出来,希望对大家有所帮助。
如果暂时没时间看,可以先收藏起来,等闲下来慢慢看,以后如果遇到类似的情况说不定能直接翻出来照搬。
困难
前面说了,我们团队有搭建日志平台和链路追踪,但实际上也带来一些困难,大体如下:
1)、对于中小企业来说,这样的平台搭建起来对资源有一定要求(
要钱
),项目维护期也经常会出现资源紧张的情况,增加了维护成本,因为成本不是控制在你手上,是老板手上;2)、对于团队成员来说,要有一定能力熟悉和使用这样的平台,掌握一些常用的命令,而中小企业人员流动还挺频繁,并不是每个入职的成员都能上手,这无形中加大了人力成本;
3)、在线上排查问题过程中,方便了许多,但也麻烦了许多,方便是因为有平台能直接定位了,麻烦是因为平台越来越多,有成员反应地址太多有点晕了(