Druid基础知识（编辑中）

最新推荐文章于 2022-06-28 22:58:16 发布

原创最新推荐文章于 2022-06-28 22:58:16 发布 · 321 阅读

0 ·

CC 4.0 BY-SA版权

大数据专栏收录该内容

39 篇文章

订阅专栏

Druid是一款用于实时数据查询和分析的开源系统，支持PB级数据处理，具备列式存储和分布式特性。它融合了OLAP分析、时间序列和全文检索功能，与Kafka、HDFS集成，适用于Hadoop、Spark等数据源。Druid采用MVCC解决并发，数据以segments分片，支持SQL查询，拥有Historical、Broker和Coordinator节点组成的集群架构。

Druid
https://yuzhouwan.com/posts/5845/
http://druidio.cn/
实时，快速，切片，大数据(PB级)，列式存储，分布式
结合了OLAP分析数据库、时间序列数据库和全文检索思想
集成kafka等消息队列和hdfs等文件系统
数据源可以使Hadoop、spark、storm和kafka等
使用mvcc解决并发问题
Druid 聚合
会将数据进行预聚合，缺点是，不能查询每条数据的明细（因为被聚合了），也就是说，聚合粒度是查询数据的最小粒度。需要提前定义。
数据分片
以segments形式分片，时间作为第一级分片，segments包含基于列的压缩和这些列的索引。
数据加载
分为实时和批处理两种，批处理用来提高精度。
数据查询
支持SQL，数据进入druid之前先join
Druid集群架构：
Historical节点：下载不变的segments到本地，并提供segments的查询服务
broker节点：链接客户端，分发查询，收集合并结果。
coordinator节点：管理集群的historical节点的segments。通知下载新的segments，删除旧的segments。
real-time处理：加载数据，创建索引（创建segments），讲segments交给historical节点。
外部依赖：
zookeeper：保证集群信息一致。metadata storage:管理元数据 deep Storage segments的永久备份。