01 日志服务面临的挑战
随着中美摩擦的升级,国内开源文化的兴起,各大互联网公司以及各行业头部企业,纷纷走向开源、安全、自主、可控的发展路线。基于开源引擎 Kafka/ElasticSearch,构建了日志基础设施的基础架构共识:
-
日志采集能力:服务端、客户端、Web、数据库的日志搜集工作;
-
日志ETL能力:日志实时ETL、ETL链路监控,ETL链路质量度量;
-
日志检索能力:全文搜索能力、日志上下文还原能力;
-
日志分析能力:Adhoc的日志OLAP能力。
随着日志流量、日志任务持续增加,使得“日志时效性、运维友好性、服务稳定性、数据安全性”问题变得非常棘手,如:
1)日志采集阶段面临的挑战
-
需要支持物理机、虚拟机、容器化场景,以服务粒度进行日志采集;支持弹性动态扩缩容;
-
需要支持海量、数十万Agent监控、运维、多版本管理;
-
需要支持共享多租户分级保障模型;
-
需要针对任务级别提供丰富的指标,故障诊断和自愈能力。
2)日志ETL阶段面临的挑战
-
ETL语义表达要简单清晰可运维,同时与底层基础设施解耦,对SQL表达方式是强需求;
-
ETL链路涉及多个环节,各自有自己的指标体系,口径不统一,问题定位与排查成本很高;
-
ETL链路涉及日志存储与计算,在Quota内端到端弹性扩缩能力充满了技术挑战。
3)日志存储面临的挑战
-
Kafka磁盘IO热点导致的集群生产消费雪崩;
-
Topic资源隔离差,流量突增、回溯消费,影响集群稳定性;
-
Kafka有大量的集群和topic的操作需要平台来承接社区Kafka-Manager能力缺失。
4)日志检索面临的挑战
-
Elast