微服务日志体系最佳实践

最新推荐文章于 2024-07-23 11:19:45 发布

shabenben

最新推荐文章于 2024-07-23 11:19:45 发布

阅读量1.5k

点赞数

分类专栏：技术架构文章标签：微服务架构云原生 spring boot

本文链接：https://blog.csdn.net/shabenben/article/details/128134810

版权

技术架构专栏收录该内容

1 篇文章 0 订阅

订阅专栏

当下，微服务已经不是一个新奇的名词，微服务技术体系的运用，让我们能快速、独立的实现服务的开发、测试、及交付部署，耦合度越来越低，但同时也带来一些复杂度的问题，如服务链路越来越长，服务系统间交互越来越频繁，一旦出现问题，那么排查的难度将呈指数倍递增。而系统日志成为我们发现异常、排查异常的唯一切入点，如何设计我们的微服务日志体系，或者说什么样的日志体系更能便于我们监控、排查异常？以下是我总结的一些日志体系最佳实践，但愿能帮助到一些有困惑的同学。

一、统一输出路径

无论你的系统是docker镜像部署，或是云平台ECS，或是物理机实例，统一日志的输出路径，将有利于我们快速的找到日志的所在，即使不参与该系统开发的同学，也能方便的找到。

我们一般在服务器运行程序用户家目录下创建logs目录，用与日志输出的唯一根路径。

如，spingboot项目，我们可以在application.properties文件中指定：

# 日志目录

logging.path=./logs

复制

同时，需要在logBack日志配置文件里声明使用。

如：

<file>${logging.path}/${spring.application.name}/service-info.log</file>

复制

注：spring.application.name为application.properties里配置的项目名称。

二、统一日志分类及日志隔离

我们在统一目录后，让大家快速进入日志目录，但日志分类有哪些？我们该记录哪些类型的日志？这也是我们需要考虑的，丰富的日志类型，更有利于我们快速的定位问题。

一般而言，我们的服务作为客户端，但也同时会作为服务端，同时，项目中也会用到数据库、缓存、消息、异步调度等中间件，这些都是我们需要监控的项，那么也都应该有日志记录，那么他们也需要统一的分类以及入口。

我们一般，在log的目录下，还会有其他日志分类目录，如：

registry：服务注册及发现相关日志，

scheduler：异步调度任务相关日志，

runtime：系统服务启动相关日志，

msg：消息中间件相关日志，含消息的发布、订阅摘要日志

traceLog：这个日志就很重要了，记录了服务访问、调用的相关信息，如结果状态、访问服务地址、耗时等，一般由技术框架支持打印。

appName：appName即项目名称，该目录下存放系统自定义日志，如服务请求的摘要、详细日志，数据库摘要、详情日志，三方服务访问摘要、详情日志，以及相关核心业务的日志，一般都是业务系统自定义的。

当然，这里还可以包括其他的一些系统中间件的日志分类目录。

在这里还需要说明的是，我们采用此分类，可以将中间件日志和业务日志进行隔离开来，通过不同的存储的隔离，达到不影响我们线上问题排查的目的。

在这里推荐下，蚂蚁Sofa的日志隔离体系框架sofa-common-tools ，有兴趣的可以去做研究。

三、统一输出格式

这里顾名思义，就是我们的日志输出要遵循统一的规则，这样，不仅仅有利于我们做好日志监控，更有利于我们跨系统的日志查看。

在以上提到的目录中，除业务自定义日志外，其他的都需要我们通过技术框架去实现，所以这里是很好统一的，但前提是大家已经统一了技术栈。

而业务自定义日志，一般我也推荐使用统一的格式，尤其是服务被访问、数据库访问、三方服务访问的摘要和详情日志，需要统一。

在这里，推荐一套我定义的服务访问摘要日志和详情日志格式：

摘要日志：

[(tntInstId,0a02ba811656639422496100241949)][(com.ys.demo.LogDemo,serverDigest)][(10ms,01,TE0051101002,0,5)]

复制

解释：

其中“[”、“]”、“(”、“)”这些只是分割符，为了一眼就看清日志，而“,”是一个关键点，对于某些日志监控分析平台，可以作为日志的分隔符，进行日志可视化操作。

从左往右，的日志含义：

tntInstId：租户ID，除云平台外，一般不需要，可删除，但要执行压测相关，还是建议添加上，用于区分压测流量，全链路上下文要统一。

traceId：服务链路请求唯一ID，贯穿全链路。

className – 接口名称

method – 方法名称，

time – 耗时，单位为ms

success – 成功失败标识，00成功，01失败

errorCode – 错误码，业务自定义，最好是整体的错误码格式

错误类型：系统异常、业务异常、三方异常等

错误级别：及当前异常的级别。如error、warn等，可作为监控提醒的必要条件，如warn级别的，我们是否需要添加监控。

以上是我定义的，大家可以按需选择增加或者删除，但应该统一格式。

详情日志和上边的摘要日志类似，但是会打印接口请求的入参和出参，需要注意的是，出参和入参中含敏感词，如姓名、身份证号等需要脱敏打印。

其他类型日志可参考统一，不做阐述。

四、统一日志含义

如上文所提到的，“00”表示成功，“01”表示失败，耗时单位统一为ms一样，这些都需要进行统一含义。

如此，那么我们的消息发送成功、消息消费成功、服务请求成功都可以用“00”表示。

我们一般用“00”表示成功，“01”表示失败，“03”表示服务请求超时，“04”表示服务路由失败。

五、唯一TraceId贯穿全链路

这个很好理解，我们在服务发起时，都应该生成唯一的traceId，作为全链路的唯一请求标识，traceId我们一般放在山下文中。

在全链路请求分析时，也是需要依赖此traceId进行关联，通过全链路请求视图，及统一的错误标识，可呈现是哪个系统出现错误。

在这里，出服务请求外，建议我们在消息发送是也需要将放了traceId的上下文发送出去，用于下游消费者读取。异步调度任务，也需要将traceId进行入库，在调度任务执行时，再取出来再放入上下文。

六、统一异常上下文

这个真的非常必要，统一异常堆栈，我们可以在当前服务请求处理失败时，将我们异常信息放入堆栈中，便于服务调用方可见。

在错误堆栈中，不仅仅是错误标识，还可以放入错误原因描述，正所谓堆栈，他是可放入多个，不仅仅可包含自身，还可以把下游的异常堆栈再放入其中。

我一般会定义一个ErrorContext类，其中包含一个ArrayList用于存放异常对象，异常对象含错误码信息、错误描述信息、错误发生位置（appName）三个属性。

七、统一日志收集

这里没什么好描述的，我们不可能在众多服务器中，逐个去登录查找日志，我们打印的日志，需要统一采集、存储、分析、监控，如果不是云平台项目，采用传统的ELK技术体系，大家一看都懂，不做过多阐述。

八、日志监控及告警

打印再多日志，都是为了排查问题。而监控，是你发现异常的最佳方案，你不可能24小时盯着服务器的日志，你非常人，咱就不说了。

需要注意的是，添加监控，还需要添加告警，否则就是无效监控，告警的阈值，需要按照自身业务情况而定，我们不可能保证每个请求都能百分百的请求成功，但一般需要保证999的可用率，也就是允许千分之一的失败，当你的业务请求量很大时，比如每秒达到10WQPS，那你可以允许一定的错误存在，但如果你一天就几个请求，那么即时一个业务异常，也应该被感知和排查。

监控及告警不是一劳永逸的，需要一个磨合的过程，不在磨合过程中，我们逐步调整监控阈值及监控项，当前请求错误率、几分钟类错误次数等等监控方案你值得拥有。实际上，不是所有的异常都需要我们关注，异常告警太多，又不用关注的，容易引起我们的关注度疲劳，而错过一些关键的告警，所以日志告警降噪也非常的重要。

以上是我的一些微服务日志体系的浅显实践经验，大家可按需采纳。