介绍
1.近实时计算 prosto,开源分布式SQL查询引擎,为了解决facebook交互式分析分析和处理速度问题.可以作为即席查询引擎.
2. hive 运行比较慢,基于mr计算,spark可以基于内存计算
3. presto是facebook 在hive上面开发的,hive可以通过sql语句查询
4. hive是facebook开发的,presto是facebook12年开始研究的,比hive的查询速度快10-100倍,
5. presto特点
低延时、基于内存的计算、本地化计算、GC控制,数据量支持GB到Pb级别
6. presto架构图
presto是facebook开源的查询分析引擎,在国内是京东用的比较溜和成熟。presto数据处理能力到达PB级别,支持查询数据源有hive、kafka、cassandra、redis、mongodb、sql server等,
可以同时支持多个数据源.在工作应用当中,我们发现presto的查询性能比hive要高40%以上。
presto的结构式master+slaver模式,具体组成如下
主要组成部分是:
一个 coordinator+一个discovery server +多个worker。通常discovery server是内嵌在coodinator组件当中。三者的作用分布如下:
1、coodinator:用于解析查询sql,生成执行计划,并分发给worker执行。
2、discovery server:worker上线后,向discovery server注册。coodinator分发任务前,需要向discovery server获取可以正常工作worker列表。
3、worker:具体执行任务的工作节点。
4 hive metastore 存储hive的元数据,提供presto元数据,worke与hdfs交互数据
- 支持text sequencefile rcfile orc parquet
安装
对jdk版本 要求高
…
hive 与 presto,结合使用
show tables from default;
use mydb;