开源工具之Druid.io

最新推荐文章于 2024-07-25 09:48:00 发布

Z_J_T

最新推荐文章于 2024-07-25 09:48:00 发布

阅读量462

点赞数 1

分类专栏：大数据文章标签： Druid 开源工具大数据

本文链接：https://blog.csdn.net/Z_J_T/article/details/83246049

版权

大数据专栏收录该内容

8 篇文章 0 订阅

订阅专栏

是什么？

Druid.io是面向海量数据的、用于实时查询与分析的OLAP存储系统。

Druid的四大关键特性：

亚秒级的OLAP查询分析。Druid采用了列式存储、倒排索引、位图索引等关键技术，能够在亚秒级别内完成海量数据的过滤、聚合以及多维分析等操作。
实时流数据分析。区别于传统分析型数据库采用的批量导入数据进行分析的方式，Druid提供了实时流数据分析，采用LSM(Long structure merge)-Tree结构使Druid拥有极高的实时写入性能；同时实现了实时数据在亚秒级内的可视化。
丰富的数据分析功能。针对不同用户群体，Druid提供了友好的可视化界面、类SQL查询语言以及REST 查询接口。
高可用性与高可拓展性。Druid采用分布式、SN(share-nothing)架构，管理类节点可配置HA，工作节点功能单一，不相互依赖，这些特性都使得Druid集群在管理、容错、灾备、扩容等方面变得十分简单。

为什么会有Druid.io？

大数据时代，如何从海量数据中提取有价值的信息，是一个亟待解决的难题。针对这个问题，IT巨头们已经开发了大量的数据存储与分析类产品，比如IBM Netezza、HP Vertica、EMC GreenPlum等，但是他们大多是昂贵的商业付费类产品，业内使用者寥寥。而受益于近年来高涨的开源精神，业内出现了众多优秀的开源项目，其中最有名的当属Apache Hadoop生态圈。时至今日，Hadoop已经成为了大数据的“标准”解决方案，但是，人们在享受Hadoop便捷数据分析的同时，也必须要忍受Hadoop在设计上的许多“痛点”，下面就罗列三方面的问题：

何时能进行数据查询？对于Hadoop使用的Map/Reduce批处理框架，数据何时能够查询没有性能保证。
随机IO问题。MapReduce批处理框架所处理的数据需要存储在HDFS上，而HDFS是一个以集群硬盘作为存储资源池的分布式文件系统，那么在海量数据的处理过程中，必然会引起大量的读写操作，此时随机IO就成为了高并发场景下的性能瓶颈。
数据可视化问题。HDFS是一个优秀的分布式文件系统，但是对于数据分析以及数据的j及时查询，HDFS并不是最优的选择。

传统的大数据处理架构Hadoop更倾向于一种“后台批处理的数据仓库系统”，其作为海量历史数据保存、冷数据分析，确实是一个优秀的通用解决方案，但是 如何保证高并发环境下海量数据的查询分析性能，以及如何实现海量实时数据的查询分析与可视化， Hadoop确实显得有些无能为力。
Druid的母公司MetaMarket在2011年以前也是Hadoop的拥趸者，但是在高并发环境下，Hadoop并不能对数据可用性以及查询性能给出产品级别的保证，使得MetaMarket必须去寻找新的解决方案，当尝试使用了各种关系型数据库以及NoSQL产品后，他们觉得这些已有的工具都不能解决他们的“痛点”，所以决定在2011年开始研发自己的“轮子”Druid，他们将Druid定义为“开源、分布式、面向列式存储的实时分析数据存储系统”，所要解决的“痛点”也是上文中反复提及的“在高并发环境下，保证海量数据查询分析性能，同时又提供海量实时数据的查询、分析与可视化功能”。

Z_J_T

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
开源工具之Druid.io

是什么？Druid.io是面向海量数据的、用于实时查询与分析的OLAP存储系统。Druid的四大关键特性：亚秒级的OLAP查询分析。Druid采用了列式存储、倒排索引、位图索引等关键技术，能够在亚秒级别内完成海量数据的过滤、聚合以及多维分析等操作。实时流数据分析。区别于传统分析型数据库采用的批量导入数据进行分析的方式，Druid提供了实时流数据分析，采用LSM(Long structur...
复制链接

扫一扫

专栏目录