Druid学习笔记-技术

最新推荐文章于 2024-06-18 20:30:00 发布

ai2018

最新推荐文章于 2024-06-18 20:30:00 发布

阅读量6.1k

点赞数 2

分类专栏： druid

本文链接：https://blog.csdn.net/u011489205/article/details/81639087

版权

2 篇文章 0 订阅

订阅专栏

Druid是一个开源的分布式数据存储。 Druid的核心设计结合了OLAP /分析数据库，时序数据库和搜索系统的创意，为运营分析创建统一的系统。

Druid将3个系统的主要特性整合到了自己的数据采集层，存储格式，查询层和核心架构中。

Druid是Apache软件基金会众多开源数据技术的补充，包括Apache Kafka，Apache Hadoop，Apache Flink等。

Druid在调用“索引”的过程中将存储在源中的原始数据转换为更有利于读取的格式（称为Druid“片段”）。

与许多分析型数据存储一样，Druid将数据按列存储。根据列的类型（字符串，数字等），应用不同的压缩和编码方法。 Druid还可以根据列类型来构建不同类型的索引。

与搜索系统类似，Druid为字符串列构建反向索引以进行快速搜索和过滤。与时序数据库类似，Druid会按时间智能地对数据进行分区，以实现面向时间的快速查询。

与许多传统的系统不同，Druid可以选择在收集数据时预先聚合数据。这个预聚合步骤称为汇总，可以节省大量存储空间。

Druid支持通过JSON-over-HTTP和SQL查询数据。除了标准的SQL运算符之外，Druid还支持使用其近似算法套件提供快速计数，排名和分位数的独特运算符。

Druid可以被认为是一个可分解的数据库。 Druid中的每个核心进程（采集，查询和协调）可以单独或联合部署在商用硬件上。

Druid明确命名了每个主进程，以允许操作员根据用例和工作负载微调每个进程。例如，如果工作负载需要，操作员可以为Druid的采集进程投入更多资源，同时为Druid的查询进程提供更少的资源。

Druid可以在单个进程失败的情况下而不影响其他进程的操作（容错机制）。

Druid旨在为需要每周7天，每天24小时运行的应用程序提供支持。因此，Druid具有一下几个功能，以确保正常运行时间和数据丢失。

数据复制
- Druid中的所有数据都被复制了可配置的次数，因此单个服务器故障对查询没有影响。
独立进程
- Druid明确地命名其所有主要进程，并且可以根据用例对每个进程进行微调。独立的进程可以在失败时不会影响其他进程。例如，如果采集进程失败，则系统中不会加载新数据，但现有数据仍可查询。
自动数据备份
- Druid自动将所有索引数据备份到文件系统，如HDFS。您可能会丢失整个Druid群集，并从这个备份数据中快速恢复。
滚动更新
- 您可以不停机更新Burid群集，并且通过滚动更新不会对最终用户产生影响。所有Druid版本都向后兼容以前的版本。
可水平扩展
- Druid通过向群集添加新服务器进行扩展。随着数据量或群集使用量的增长，可以添加资源以确保性能和稳定性不受影响。
易于操作
- 只需添加或删除服务器即可向上或向下扩展，Druid会自动重新平衡。容错的架构设计使得路由可以绕过故障的服务器。

关注