数据分析架构对比

最新推荐文章于 2022-03-11 10:45:35 发布

鸿语zlx

最新推荐文章于 2022-03-11 10:45:35 发布

阅读量579

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/weixin_39650149/article/details/118354743

版权

4 篇文章 0 订阅

订阅专栏

在这里插入图片描述

互联网技术的快速增长催生了各类大体量的数据，Hadoop很大的贡献在于帮助企业将他们那些低价值的事件流数据转化为高价值的聚合数据；

Hadoop擅长的是存储和获取大规模数据，它并不提供任何性能上的保证它能多快获取到数据。虽然Hadoop是一个高可用的系统，但在高并发负载下性能会下降；

Hadoop是一个很好的后端、批量处理和数据仓库系统。在一个需要高并发并且保证查询性能和数据可用性的并需要提供产品级别的保证的需求，Hadoop并不能满足。

Druid 是 Metamarkets 公司（一家为在线媒体或广告公司提供数据分析服务的公司）推出的一个分布式内存实时分析系统，用于解决如何在大规模数据集下进行快速的、交互式的查询和分析。

Druid 是一个开源的数据分析引擎工具，为实时和历史数据的次秒级（多于一秒）查询设计。主要应用于对数据的OLAP查询，Druid 提供低延迟（实时）的数据摄取、灵活的数据探索、快速的数据聚合。现有的 Druid 部署已支持扩展到数万亿时间和 PB 级数据。

	Druid	Kylin	ES	Spark SQL	ClickHouse
数据规模	超大	超大	中等	超大	中
查询效率	高	高	中等	低	高
并发度	高	高	高	低	中
灵活性	中	低	高	高	高
SQL支持	中	高	中	高	高

SparkSQL / Impala / ClickHouse，支持海量数据，灵活性强，但对响应时间是没有保证的。当数据量和计算复杂度增加后，响应时间会变慢，从秒级到分钟级，甚至小时级都有可能。

搜索引擎架构的系统（Elasticsearch等），在入库时将数据转换为倒排索引。牺牲了灵活性换取很好的性能，在搜索类查询上能做到亚秒级响应，但是对于扫描聚合为主的查询，随着处理数据量的增加，响应时间也会退化到分钟级。

Druid / Kylin，则在入库时对数据进行预聚合，进一步牺牲灵活性换取性能，以实现对超大数据集的秒级响应。

目前没有一个OLAP分析引擎能在数据量、灵活程度、性能（吞吐&并发）做到完美，需要基于自己的业务场景进行取舍和选型。

关注

专栏目录