文章目录
前言
前一篇文章刚刚讨论过在分布式系统中如何构建一套metric框架来帮助我们做系统性能指标的收集,以此帮助我们能够更好地了解系统运行的情况。在这里,metric信息是一种能够让我们看到系统内在具体运行情况的一个信息。这里还会有其它信息,比如常见的系统log,这个也是广泛被用来查看定位系统问题的一个主要信息源。总结地来说,不管metric也好,log也罢,这些都是为了能够提升系统的Observability,即可观察性。分布式系统的运行是极其复杂的,我们需要一定的措施和手段来提高其可观察性。本文我们就来聊聊这个话题。
系统的三大Insight视角
关于如何提升系统的可观察性,我们首先要了解的一点是我们需要去看哪些内部的Insight视角,这些视角信息是有用的,对我们有帮助的。其实在上文部分,已经提到了几点Insight视角:
- Metric信息,metric信息用来查看系统某些关键指标信息的。
- Log日志,查看系统具体运行逻辑信息。
- Conf配置信息,系统运行的使用配置信息情况。
三大Insight视角信息的收集
接下来的问题就是:以上三大视角信息我们如何来进行收集呢?
首先是Metric信息,系统的Metric信息是保留在Metric框架内部的,因此我们需要将这些metric信息的值从框架中拉取出来,就是get value of all一次。
Log日志信息的获取,日志信息的获取我们可以先简化地考虑为是实时日志的获取,而不是获取历史日志。实时流的获取就不用走读取系统本地文件的方式了,我们可以直接获取Log打印对象,进行输出流数据的实时采集。
最后是Conf配置信息,系统当前使用的Conf配置信息是3个Insight视角信息里最容易获取的。Conf系统在被系统服务初始加载完毕后,或被赋值到其内部Configuration实例内,我们只需通过获取这个实例信息来打印即可。
Insight Tool的设计实现
以上三大Insight信息如果在不做任何改进的情况下,我们的观察办法是比较低效且各自独立的:
1)到JMX页面观察当前metric指标
2)登录系统服务节点,查看本地日志
3)登录系统服务节点,查看本地Conf配置文件(此方式并不完全可靠,存在系统加载完配置后,存在配置被更改但系统又还没加载新的配置文件的情况)
在改进系统Observability的情况下,我们将要引入Insight Tool的工具来整合上述略显低效的方式,收集的方式如前文小节所述,此收集展示过程如下所示“
- 1)系统服务构建出Metric/Log/GetConf三大Endpoint,在这些endpoint里面执行收集逻辑
- 2)用户通过Insight Tool工具命令触发某个行为命令,获取某metric值,获取某服务log
- 3)Insight Tool发送http请求到目标地址中,随后请求抵达,触发了Serverlet的处理。
- 4)Serverlet返回客户端结果。
此过程简图如下所示:
Log/Metric Insight命令实现
以下笔者将重点介绍Log以及Metric的Insight代码功能实现,基于的原理在上文中已经提到过了,但是在此小节部分将会展示更多的细节内容。此部分代码实现参考自HDDS相关issue:HDDS-1935:Improve the visibility with Ozone Insight tool。
Log采集部分的实现
在HDDS-1935对此的实现中,采用的是获取Root Log对象进行实时log的写出,然后客户端将日志进行过滤,此过程流程图如下所示:
在Client Side端的细节步骤如下:
- 1)获取目标要查看的insight point(具体服务,类等等)
- 2)获取此insight point的log源信息
- 3)遍历log源信息,进行log level的重置操作
- 4)提取log源对应所属的component
- 5)根据log源信息进行log的实时获取
- 5.1)根据log源信息,开启独立线程进行日志信息流的获取
5.1.1)构造实时日志获取http的get请求
5.1.2)得到执行返回的回复结果
5.1.3)从得到的日志结果内容中过滤出目标期待的log类的日志内容 - 5.2)启动日志获取线程
- 5.3)等待日志获取线程的执行结束
- 5.1)根据log源信息,开启独立线程进行日志信息流的获取
上述关键Log源的定义如下:
/**
* Log Source的定义.
*/
public class LoggerSource {
/**
* 此日志所属的模块
*/
private Component component;
/**
* log类具体名称
*/
private String loggerName;
/**
* 日志级别
*/
private Level level;
public LoggerSource(Component component, String loggerName, Level level) {
this.component = component;
this.loggerName = loggerName;
this.level = level;
}
...
Client端相关代码如下:
@Override
public Void call() throws Exception {
OzoneConfiguration conf =
getInsightCommand().createOzoneConfiguration();
// 1)获取目标要查看的insight point(具体服务,类等等)
InsightPoint insight =
getInsight(conf, insightName);
// 2)获取此insight point的log源信息
List<LoggerSource> loggers = insight.getRelatedLoggers(verbose);
// 3)遍历log源信息,进行log level的重置操作
for (LoggerSource logger : loggers) {
setLogLevel(conf, logger.getLoggerName(), logger.getComponent(),
logger.getLevel());
}
// 4)提取log源对应所属的component
Set<Component> sources = loggers.stream().map(LoggerSource::getComponent)
.collect(Collectors.toSet());
try {
// 5)根据log源信息进行log的实时获取
streamLog(conf, sources, loggers);
} finally {
for (LoggerSource logger : loggers) {
setLogLevel(conf, logger.getLoggerName(), logger.getComponent(),
Level.INFO);
}
}