cat 常用的日志分析架构方案_大众点评Cat--架构分析

本文详细介绍了Cat作为实时监控平台的架构,包括其客户端和服务端的角色,以及数据处理流程。Cat采用消息树结构组织日志,有Transaction、Trace、Event、Heartbeat和Metric五种消息类型。此外,文章还探讨了关键配置如ClientConfig、RouterConfig和ServerConfig的作用,以及服务节点的职责和日志采样策略。
摘要由CSDN通过智能技术生成

转自:http://blog.csdn.net/szwandcj/article/details/51025669

Cat功能强大且多,光日志的报表和图表分析就有十几种,但文档却很少,寥寥无几找到一些粒度却还很粗而且都是偏功能性的介绍。此外cat的配置也特别丰富,但几乎所有的cat文档里却鲜少提及。这些都导致很多方面都是缺失的,尤其是对于使用者来说,缺失了这些可能就意味着后面会步入大坑。

大纲

整体架构

Cat的定位是实时监控平台,但是与其说是监控平台,更像是个数据仓库,在数据仓库的基础上提供丰富的报表分析功能。

b918e89203390b48fd479429ebd9b57c.png

Cat分c端和s端,c使用cat接口向s上报统一格式的日志信息。Cat的c是产生日志的地方(一般来说就是被监控的应用,上图中的应用节点),相应的s则是接受日志、消费日志的地方(上图中的server节点),日志消费后生成会日志报表。

S分为job machine, alert machine和sender

machine,前者表示可以运行定时任务的节点,后者则代表可以进行告警任务的节点。定时任务将报表数据转换成图表数据;告警则基于一定规则对报表数据做筛选剔出相应的告警数据,还有种特殊的告警用于对第三方应用做ping(2次ping不通或者超时则告警),告警节点如果不同时是发送节点则只保存告警信息,如果是发送节点则发送消息提醒(微信,短信,邮箱)给相应的运维人员。

运维人员可以直接通过s端提供的web前台功能查看报表信息以及图表信息。

服务节点除了对日志做处理还提供rest服务–报表数据查询和基础数据查询及变更接口。Cat前台提供功能做配置变更和查询,用户也可以编程调用rest接口做变更和查询。Cat集群内部,不同节点之间数据交换都是通过rest服务来的,例如后面要介绍的应用节点到服务节点拉取路由信息查询以及告警节点向服务节点拉取报表信息等。

消息树结构

2487f0504b0645607e6d2b037a7a8e6f.png

Cat使用消息树(MessageTree)组织日志,树的每个节点都是一个消息(Message),消息共有5种具体类型,分别是Transaction,

Trace, Event,Heartbeat和Metric。每个消息树都有一个唯一的messageId,且消息树之间有单父级关系。

Transaction可以理解为是一个事务,它分为三种–独立事务,分支事务以及标记事务。事务之间可以互相嵌套,事务还可以嵌套任意其他消息类型,也只有事务才可以嵌套消息。

分支事务是从当前事务里派生出的异步事务,当前事务不需要等待其完成。分支事务创建新的消息树,和主事务之间是平行的关系。主事务通过新建event记录与分支事务之间的关系(一种软连接关系),分支事务通过设置消息树的parentMessageId维护与主事务消息之间的关系。

标记事务和分支事务之间非常类似,但标记事务是当前事务的子事务而不是另一个平行事务。其他线程可以通过tag(标记)找到标记事务并进行绑定,标记事务创建新event记录绑定信息,每一次绑定对应一个event,event里记录绑定线程的事务信息;同时绑定线程会也通过parentMessageId维护与主事务消息之间的关系。

097dfd5d45c5e6fcd8bda200617c488d.png

Event代表系统是在某个时间点发生的一次事件,例如新用户注册、登陆,系统异常等,理论上可以记录任何事情。

Trace记录debug或者info信息。

Metric记录一些指标信息,cat提供logMetricForSum, logMetricForCount以及logMetricForDuration对指标做简单的度量统计。

Heartbeat则是用来记录系统的心跳信息,例如cpu,内存等等。Cat默认收集c端(见上节c和s的区分)节点的心跳信息。对报文结构感兴趣的可以查看status.xsd。

关键配置的静态结构

Cat有三个重要配置,分别是ClientConfig, RouterConfig和ServerConfig,分别代表客户端信息,服务路由信息以及服务端配置信息。

f02ddbecbf13a7396bfd9ef64956df9e.png

每个客户端对应一组对服务器以及一个domain信息,客户端默认从这组服务中的一个节点上拉取路由配置信息。客户端的查询参数里带有domain信息,服务端的路由配置里如果有相应的domain则返回相应domain下的一组server信息,如果没有则返回default

servers。

返回的路由信息包含一组日志服务节点以及采样比例(sample),日志服务节点包含权重,socket端口号以及id(ip)。采样比例是指客户端的cat日志多少次里抽样发送1次,例如0.2则代表记录5次日志会忘服务端发送1次。

客户端拉取到router信息后,和router的日志server列表中第一个可用server之间建立netty channel,并启动一个线程对channel进行维护。对channel的维护主要包括:

1. 比较服务端路由信息和客户端上次抓取的是否一致,不一致则更新客户端router信息,并重新建立新channel

2. 判断当前channel状态,如果状态不正常,则从router的server列表里重新找出一个能用的server建立channel

客户端拉取不到router信息时,默认使用客户端下的server列表作为远程日志服务器组。

ServerConfig主要用于服务端节点的职能描述,主要有以下几类功能:

1. 定义服务节点职能,可以运行哪类任务,以及是否可以发送告警信息和是否是hdfs存储节点。

2. 通过consoleConfig定义相应报表数据的获取节点,一般用于告警节点远程拉取所有节点的报表数据进行筛选。

3. ConsumerConfig定义各种类型的事务时间阈值,从名字可以看出来分别定义url,sql以及cache类型的事务时间的阈值,超过这个时间会被认为是一个problem。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值