企业微信万亿级日志检索系统

最新推荐文章于 2024-06-30 20:59:31 发布

腾讯技术工程

最新推荐文章于 2024-06-30 20:59:31 发布

阅读量1.8k

点赞数 1

文章标签：大数据分布式数据库 java python

本文链接：https://blog.csdn.net/Tencent_TEG/article/details/117049771

版权

本文介绍了企业微信如何构建一个万亿级日志检索系统，以解决日志查找效率低下、保存时间短和日志缺失等问题。系统采用分布式文件系统和索引，实现了日志的高性能入库和查询，同时保证了系统的可靠性和灵活性，支持模糊匹配、统计查询和全链路日志检索。

摘要由CSDN通过智能技术生成

作者：datonli，腾讯 WXG 后台开发工程师

开发在定位问题时需要查找日志，但企业微信业务模块日志存储在本机磁盘，这会造成以下问题：

日志查找效率低下：一次用户请求涉及近十个模块，几十台机器，查找日志需要登录机器 grep 日志文件。这一过程通常需要耗费 10 分钟以上，非常低效；
日志保存时间短：单机磁盘存储容量有限，为保存最新日志，清理脚本周期清理旧日志文件腾出磁盘空间，比如：现网一核心存储 7 天日志占用了 90%的磁盘空间，7 天前日志都会被清理，用户投诉因日志被清理而得不到解决；
日志缺失：虽然现网保留 7 天最新日志，但是由于某些模块请求量大或日志打印不合理，我们也会限制一个小时日志打印量，超过阈值后不再保存，比如：现网一核心存储前 10 分钟打了 10G 日志达到阈值，后 50 分钟日志不再保存了，用户投诉因日志缺失无法得到解决。

我们希望有这样一个日志系统：

公司内外有很多日志系统方案，根据是否对日志做全文检索可以分为两类：

全文检索的日志系统：对日志内容切分词和建倒排，通过查询关键词的倒排取交集支持模糊匹配，这类系统一般入库资源消耗较多，也不支持日志统计，典型实现有：ELK、Hermes 以及腾讯云日志服务(Cloud Log Service, CLS)等系统；
部分字段检索的日志系统：只对部分字段建索引，支持特定字段的快速检索，入库资源消耗较低，但是这类系统对模糊匹配未能很好支持，也不支持日志统计，不支持模块级全量日志查询，如 wxlog、LogTrace 等系统。

我们新设计的检索系统在资源消耗较小的前提下，很好满足背景所提的所有检索需求。