海量时间序列数据的实时查询系统（Druid系统）概述

最新推荐文章于 2024-07-13 10:44:00 发布

coder哥

最新推荐文章于 2024-07-13 10:44:00 发布

阅读量6.1k

点赞数

文章标签：分布式聚合数据框架

本文链接：https://blog.csdn.net/zhangpengnwpu/article/details/48624053

版权

Druid是一款针对海量时间序列数据的开源OLAP系统，擅长实时聚合查询。它采用分布式设计，支持数据分片和副本，确保高可用性。数据按时间粒度和维度聚合，提供快速查询。数据采集分为实时和离线两种方式，实时采集通过Real-time Nodes或Index Service，离线采集则包括Hadoop Index任务和Index Service任务。查询服务由Broker Node、Historical Node、Real-time Node和Coordinator Node组成，提供高效查询和数据协调。此外，Druid依赖Deep Storage、数据库、Zookeeper和消息队列等外部系统协同工作。

摘要由CSDN通过智能技术生成

Druid是为处理海量时间序列数据而设计的一款开源的OLAP系统。它是分布式处理系统，在设计之初就采纳了线性扩容和高可用的设计方案。集群的规模可以随着业务的增长而动态增加。要查询的数据集都做了分片（partition）和副本（replication），可以在集群部分机器down机之后，查询服务依然可用。Druid采用模块化设计的理念，模块之间的依赖通过Guice依赖注入框架自动进行，Druid支持用户自定义的组件，方便用户扩展。

Druid擅长按照不同的时间粒度（Time Granularity）和各种维度（Dimensions）组合去查询聚合数据，不擅长原始数据的查询。Druid的实时性体现在两个方面。一是Druid查询的响应时间非常快，大部分查询会在10s以内返回。二是能够查询的数据的时效性非常高，进入Druid采集系统的数据，就能被立即查询到，延迟在ms级别。