什么是大数据?
在信息化时代背景下,由于信息交互,信息存储,信息处理能力大幅增加而产生的数据
什么是OLAP?
OLAP (Online Analytical Processing) 对业务数据执行多维分析,并提供复杂计算,趋势分析和复杂数据建模的能力。是许多商务智能(BI)应用程序背后的技术。OLAP已经发展为基于数据库通过SQL对外提供分析能力。 与MapReduce Job相比,OLAP引擎常通过SQL的形式,为数据分析、数据开发人员提供统一的逻辑描述语言,实际的物理执行由具体的引擎进行转换和优化
常见的OLAP引擎:
- 预计算引擎:Kylin, Druid
- 批式处理引擎:Hive, Spark
- 流式处理引擎:Flink
- 交互式处理引擎:Presto, Clickhouse, Doris
Presto是Facebook开源的查询分析引擎,在国内京东用的比较成熟。Presto数据处理能力到达PB级别,支持查询数据源有Hive、Kafka、Cassandra、Redis、Mongodb、SQL server等,在工作应用当中,Presto的查询性能比Hive要高40%以上。Presto的具体组成如下图所示:
主要的组成部分为:Coordinator+一个Discovery server+多个worker。三者的作用如下