Druid大数据实时处理的开源分布式系统——介绍

最新推荐文章于 2024-09-27 10:25:11 发布

Alvin家鸡鸭鱼的小米米

最新推荐文章于 2024-09-27 10:25:11 发布

阅读量5.5k

点赞数 1

分类专栏： druid 文章标签： druid

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013573133/article/details/78309471

版权

Druid是一个开源的分布式数据存储，专为大数据实时分析设计。它提供低延迟的查询、高可用性和可伸缩性，尤其适合高并发环境下的查询性能需求。Druid通过列式存储、倒排索引等技术实现亚秒级OLAP查询，支持实时数据摄入和分析，解决Hadoop在高并发查询和实时性上的不足。

摘要由CSDN通过智能技术生成

Abstract

Druid 是一个为在大数据集之上做实时统计分析而设计的开源数据存储。这个系统集合了一个面向列存储的层，一个分布式、shared-nothing的架构，和一个高级的索引结构，来达成在秒级以内对十亿行级别的表进行任意的探索分析。以下将详细阐述Druid的架构，如何支持快速聚合、灵活的过滤、和低延迟数据导入。

1. 介绍

Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统，旨在快速处理大规模的数据，并能够实现快速查询和分析。
在最近几年，互联网技术的快速增长已经产生了大量由机器产生的数据。单独来看，这些数据包含很少的有用信息，价值都是很低的。从这些巨大的数据里面分析出有用的信息需要大量的时间和资源。

作为解决方案之一，Google推出了MapReduce，应运而生的是Hadoop。Hadoop擅长的是存储和大规模MapReduce处理离线数据，但是它并不提供任何性能上的保证它能多快获取到数据。此外，虽然Hadoop是一个高可用的系统，但是在高并发负载下性能会下降。最后，Hadoop对于存储数据可以工作得很好，但是并没有对数据导入进行优化，使导入的数据立即可读。Hadoop是一个很好的后端、批量处理和数据仓库系统。然而Hadoop却无法在高并发环境下（1000+用户）保证查询性能和数据可用性和提供产品级别的保证。

最低0.47元/天解锁文章

Alvin家鸡鸭鱼的小米米

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。