JAVA微服务场景下分布式日志收集排查问题实战

最新推荐文章于 2024-07-26 18:23:14 发布

小杨互联网

最新推荐文章于 2024-07-26 18:23:14 发布

阅读量3.3k

点赞数 1

分类专栏：分布式日志收集分布式链路调用文章标签： java 微服务分布式分布式日志收集微服务日志搜索

本文链接：https://blog.csdn.net/qq_39751120/article/details/127940086

版权

分布式日志收集同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

分布式链路调用

1 篇文章 0 订阅

订阅专栏

问题产生的根由？不同服务的日志存在哪里？我们怎么去排查线上问题？

问题场景：我们部署的java服务可能有几十个，不同的项目里面他是看不到别的服务的日志，只有服务的返回msg消息，相比传统的单体服务来说，排查问题和解决问题的原因相对比较复杂和麻烦，我们传统的单体项目的日志存txt文本，log文件，但是项目日志的文件太大了，几个G，十几个G的时候去打开日志特别慢，很不方便。

那么处理这种日志应该怎么做和设计一个日志搜索呢？

传统的解决办法，数据库记录错误日志，es索引写入，页面搜索，写硬盘定时清理，但是日志不仅仅分系统日志，服务日志，还有业务逻辑操作日志，系统日志等，从而加大了我们存储日志的内存空间和复杂度。

下面给大家讲解微服务下日志怎么使用，怎么查问题。

日志方案：

方案一：分布式日志搜集：ELK+kafka 或者ELK 这是最传统的方式。

方案二：filebeta+logstatsh+ES+web 这钟方式处理的日志一般是网络处理，filebeta支持大量批量文件读取和操作，从而大大加快文件写入，因为filebeta不存在数据会丢失的情况。

方案三：微服务网关拦截：统一请求分发，每一个请求抓取服务的日志返回和信息，写入硬盘或者表中，定时数据清洗。当然实际开发当中没有这么用，这种方式不推荐。

方案四：阿里云日志搜集：日志服务 SLS (我相信很多企业目前都是在用阿里的sls，因为用起来比较方便，我们只关心服务的部署，阿里云帮我们做日志搜集，其实日志和ELK类似都是走索引写入查询)

方案一和方案二和方案三是目前企业用的比较多的，当然一个是花钱一个是自己搭建的，花钱的肯定用起来方便。

我们今天就实践操作讲解一下阿里云的日志服务 SLS怎么使用和查日志。

看这个图来说这个是目前我们生产环境的sls日志服务查询出来一个月的日志量，那一般企业的日志量我相信过亿就不错了，这个是目前12百个服务部署到阿里云k8s容器上面。所以日志量很大。

下面我们来看sls日志如何使用操作？

搜索方式支持和数据库一样的操作，可以模糊查询和精确查询日志，不是等值查询，或和且的方式都可以。

阿里云日志查询语法：

查询语法 (aliyun.com)（可以参考阿里云的语法使用）

我们按照服务名称或者ip + id编号，筛选时间或者搜索指定打印指定的日志名称。

服务名称 + 后台日志搜索

这里由于有敏感数据就不贴出来了，搜索方式是这样，如果你想要统计分组也是可以的。

服务名称 + 后台日志+ 日志关键词+like+ 分组

服务名称 and api auth-center response or LIKE memberId GROUP unionId

基于这种查询就能查到具体的日志输出了，如果你要聚合统计，你可以添加预查询

预查询的方式就是message: returnMessage 这样

上下文浏览：

上下文浏览代表是程序从上往下执行，那么0的下标代表当前位置，负数代表程序上面，正数代表程序还在往下面执行，排查问题的时候每一步都会有记录，这个很关键。也是能够快速排查到问题原因的。

当然还有一些日志统计，报表的，都可以通过控制台去处理筛选查看：

日志聚类：

日志智能聚类（LogReduce）功能能将相似度高的数据聚合在一起，提取共同日志Pattern（模式），快速掌握日志全貌

主要功能和特性：

支持任意格式日志：Log4J、Json、单行（syslog）
亿级数据，秒级出结果
日志经任意条件过滤后再Reduce
对Reduce后Pattern，根据signature反查原始数据
不同时间段Pattern比较
动态调整Reduce精度

主要应用场景：

DevOps（问题定位、异常检测、版本回归等）
安全、入侵检测

计费标准：

开启“日志聚类”功能后，索引总量会增加原始日志大小的10%

其实开启过后就是增加指定日志的聚合并且持久化操作，反正费用是不能少的

监听事件查询：

监听索引字段的事件查询，主要是以阿里云的字段

当然还有数据加工的我就不演示了。

下面我们讲重点：其实sls服务也有查询不到问题的时候，那是必然的，你说你日志看到了但是没有看到别的服务的调用链路，这是关键，每一条执行日志都有一个 tid,tid是什么？tid就是链路调用的tranceid和spanId ，微服务分布式调用链路追踪请求服务的时候会传一个tranceid 从而帮助我们排查问题。

我们可以通过Sleuth + Zipkin 追踪日志记录。

我们这里采用Skywaking 。