中原银行统一日志平台

001cda652c6df75d890865aefaba0362.png

项目背景

日志是记录 IT 软硬件系统运行过程的详细数据,对系统运行状态监控、各类问题排查、软件行为分析等都有着至关重要的作用,堪称 IT 系统的“黑匣子”。在传统 IT 架构中,日志都以文本文件的形式储存在各软硬件系统的运行现场。

但是在金融场景飞速发展的今天,随着业务类型和用户量的高速增长,IT 系统的日志类型和日志体量也在急速扩张。然而各类日志(软硬件)存储分散、内容繁杂且日志格式和打印规范等各有差异,缺乏统一的全生命周期管理和海量日志的监控分析处理能力,给业务监控告警、日志搜索分析、审计溯源带来了巨大阻碍,导致问题排查难度高、生产故障定位处理慢,甚至影响业务有效的连续运行。

为了提升全行日志的管理和分析能力,提高业务系统日志查询效率,中原银行于 2021 年 10 月上线了全行级统一日志平台。

平台简介

1224c727902c36b7379f1051a008ae76.jpeg

中原银行统一日志平台提供海量数据采集、统一管理、集中查询和展示等功能,提供了日志搜索、日志审计、异常检测等运维能力,降低了日志管理门槛,提高了运维效率,平台具有以下特点:

  • 日志无侵入接入

对业务系统无侵入,快速接入、快速落地,平台支持全类型文本数据的采集和解析,快捷方便的对来自业务系统、网络设备、安全设备、操作系统、数据库、中间件等软硬件离散日志数据,进行有效、集中的采集和分析。

2a1784bf980eb385a83dedb0c8a35773.png

  • 日志数据实时洞察

基于业界流行的大数据框架开发,支持海量日志数据采集、解析、存储、搜索,平台具备秒级数据采集能力和 TB 级数据处理能力,日志数据准实时可见,业务系统可在平台实时查看当前最新日志。

  • 日志搜索秒级响应

平台使用分布式搜索框架,查询速度快,日志搜索秒级响应,常规查询均秒级实时展示。

功能亮点

平台通过日志集中搜索、链路日志查询业务日志告警三大亮点功能,实现海量数据分析和实时数据洞察,以支撑全行基于日志的多维度场景构筑和决策管理。

·日志集中搜索

统一日志平台大大降低了分布式系统用户在日志查询上的复杂度,通过页面化操作,开发者可以通过页面快速进行日志搜索,查询各节点上的日志,平台提供多种筛选手段,如全文检索、字段匹配、模糊查询、表达式查询等,并支持查看日志上下文,查看该日志前、后若干条日志的内容,帮助研发人员在问题定位时了解日志全貌。

·链路日志查询

调用链可帮助研发人员快速分析系统性能消耗的节点和原因、定位异常并解决问题。平台打通 Skywalking 全链路追踪,在日志平台中,直接通过全局流水号,即可一次查询出来整个链路的所有相关数据,以可视化的形式呈现各业务链路节点的信息;通过业务关键词,可以快速查看问题链路对应的日志信息;且支持查看请求经过的全部节点日志及各单节点下对应流水号的详细日志。

6959c8f0367121e2114b61a525840bef.jpeg

·业务日志告警

日志作为运维数据的重要来源之一,用户可以对日志数据产生的异常情况进行定义,配置告警规则(如异常日志事件数),当满足触发条件时将通过一体化监控平台进行告警,以及时帮助用户预防和发现问题。

93e82c9ab0189c177bacae707a941843.jpeg

技术解读

·海量日志数据处理框架

日志数据流大、种类多、来源丰富,对平台的技术能力要求极高,日志平台设计之初就把支撑海量数据采集、分析、存储、搜索作为平台的建设目标。在采集端,平台采用自研 C 语言采集器,具有秒级数据采集能力;使用 kafka 作为消息传输队列,保证数据传输的高吞吐性;使用 Flink 流式处理引擎进行解析计算,峰值 TB 级数据处理;使用 Elasticsearch 分布式搜索引擎作为平台日志存储与搜索组件,Elasticsearch 因其强大的横向扩展能力,使平台在海量数据存储与查询上具有天然的优势。

ff03d022e7e25f03171390e8079bc376.jpeg

·日志数据实时可见实现

ES 利用磁盘缓存实现准实时数据可见,但是涉及到磁盘,就带来一个不可避免的问题:磁盘太慢,这对实时性要求很高的服务来说,磁盘的处理能力成为重大瓶颈。ES 通过巧妙的设计保障了数据实时性,ES 把新接收的数据存进内存 buffer,内存 buffer 生成一个新的 segment,刷到文件系统缓存中,即可检索这个新 segment 数据。这一步刷到文件系统缓存的步骤,在 Elasticsearch 中默认设置为 1 秒间隔,在大数据量级下 1s 的刷新频率对磁盘的压力会比较大,日志平台为了平衡写入与日志可见性,目前设置为 30s 刷新一次,对于大多数应用来说,几乎为实时可搜索。

617ecaa15c027e70685ce1ecd1cd6586.png

·日志查询优化

平台对 ES 做了大量的优化调优工作,最大化发挥 ES 搜索组件的性能,在数据接入前,根据业务系统日志日增量提前规划 ES 分片数,保证每个分片大小控制在 20-40GB;调优集群与索引参数,保障集群在大数据读写下的稳定性;调优查询参数,使用 profile 工具分析调优查询语句,实现日志搜索秒级响应。

5f7b69c3cd7f5c904cd7e3043296556f.png

未来规划

统一日志平台目前已在渠道整合平台、核心系统等 30 套业务系统推广使用,并统一接入安全设备等多种硬件日志,日均日志处理量达 30 亿条,高峰时段每秒解析量达 19 万条,日增数据 3TB,累计存储 50TB。

但是随着业务的高速增长,业务复杂度提高,也对平台提出了越来越高的要求,未来平台将从以下几个方面着手,不断优化和提升平台性能与易用性,以更好地满足研发快速排障需求。

· 一站式可观测与诊断分析

平台将融合日志、指标监控、链路追踪数据,提升系统可观测性;整合诊断分析平台,实现一站式快速排障,从事故前异常发现、事故中故障排查到事故后的复盘分析,为业务持续优化提供一体化平台。

f9b8503f56b5c7726bbd9fdf8aeaf3fa.png

·性能更高搜索

日志平台内部使用 ES 作为搜索组件,ES 基于倒排索引的特性,使得 ES 查询时查询速度通常较快,QPS 较高;下一步计划调研开源框架 ClickHouse,ClickHouse 是一个开源列式数据库管理系统,其列式存储方案可大大降低资源利用率,其向量执行和 SIMD 配合多核 CPU,可以实现更加高效的搜索。

- END -

往期回顾

作业帮在多云环境下的高可用双活架构优化实践

Elasticsearch 还是 Clickhouse?

工单系统——深度解析高效的功能架构(下)

工单系统——深度解析高效的功能架构(中)

工单系统——深度解析高效的功能架构(上)

工单系统——传动器的顶层设计

工单系统——骨灰级解析前世今生

支付系统-会计核心

支付系统-对账系统

ee7a67d15d74d91fbe06ca3e541d3aeb.png

技术交流,请加微信: jiagou6688 ,备注:Java,拉你进架构群

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值