Druid 简介

最新推荐文章于 2024-08-08 20:57:24 发布

天秤座的架构师

最新推荐文章于 2024-08-08 20:57:24 发布

阅读量2.3w

点赞数

分类专栏：商业操作系统--企业中台实践微服务基础设施文章标签：数据库驱动 Druid

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/u012921921/article/details/105772476

版权

68 篇文章 12 订阅

订阅专栏

21 篇文章 0 订阅

订阅专栏

Apache Druid 是一个分布式内存实时分析系统，用于解决如何在大规模数据集下进行快速的、交互式的查询和分析的问题。Apache Druid 由 Metamarkets 公司（一家为在线媒体或广告公司提供数据分析服务的公司）开发，在2019年春季被捐献给 Apache 软件基金会。

Apache Druid 具有以下特点：

实时数据分析是 Apache Druid 最典型的使用场景。该场景涵盖的面很广，例如：

这些场景的特点都是拥有大量的数据，且对数据查询的时延要求非常高。在实时指标监控中，系统问题需要在出现的一刻被检测到并被及时给出报警。在推荐模型中，用户行为数据需要实时采集，并及时反馈到推荐系统中。用户几次点击之后系统就能够识别其搜索意图，并在之后的搜索中推荐更合理的结果。

Apache Druid 拥有优秀的架构设计，多个组件协同工作，共同完成数据从摄取到索引、存储、查询等一系列流程。

下图是 Druid 工作层（数据索引以及查询）包含的组件。

Realtime 组件负责数据的实时摄入。
Broker 阶段负责查询任务的分发以及查询结果的汇总，并将结果返回给用户。
Historical 节点负责索引后的历史数据的存储，数据存储在 deep storage。Deep storage 可以是本地，也可以是HDFS 等分布式文件系统。
Indexing service 包含两个组件（图中未画出）。
- Overlord 组件负责索引任务的管理、分发。
- MiddleManager 负责索引任务的具体执行。

下图是 Druid segments（Druid 索引文件）管理层所涉及的组件。

Zookeeper 负责存储集群的状态以及作为服务发现组件，例如集群的拓扑信息、overlord leader 的选举、indexing task 的管理等等。
Coordinator 负责 segments 的管理，如 segments 下载、删除以及如何在 historical 之间做均衡等等。
Metadata storage 负责存储 segments 的元信息，以及管理集群各种各样的持久化或临时性数据，例如配置信息、审计信息等等。