CDH 安装 presto-server-0.216

最新推荐文章于 2024-05-16 15:26:10 发布

jaysen1005

最新推荐文章于 2024-05-16 15:26:10 发布

阅读量2.3k

点赞数

分类专栏： CDHInstall 文章标签： CDH Presto hive mysql

本文链接：https://blog.csdn.net/weixin_36636708/article/details/88037421

版权

1.Presto简介 Presto是由Facebook开源，完全基于内存的并行计算以及分布式SQL交互式查询引擎。它可以共享Hive的元数据，然后直接访问HDFS中的数据，同时支持Hadoop中常见的文件格式比如文本，ORC和Parquet。同Impala一样，作为Hadoop之上的SQL交互式查询引擎，通常比Hive要快5-10倍。另外，Presto不仅可以访问HDFS，还可以...

摘要由CSDN通过智能技术生成

1.Presto简介

Presto是由Facebook开源，完全基于内存的并行计算以及分布式SQL交互式查询引擎。它可以共享Hive的元数据，然后直接访问HDFS中的数据，同时支持Hadoop中常见的文件格式比如文本，ORC和Parquet。同Impala一样，作为Hadoop之上的SQL交互式查询引擎，通常比Hive要快5-10倍。另外，Presto不仅可以访问HDFS，还可以访问RDBMS中的数据，以及其他数据源比如CASSANDRA。

适合场景：PB级海量数据复杂分析，交互式SQL查询，⽀持跨数据源查询

不适合场景：多个大表的join操作，因为presto是基于内存的，join操作输入小但产生的中间数据大，在内存里可能放不下

与Hive的区别：

（1）hive是一个数据仓库，提供存储服务，但只能访问HDSF的数据，presto是一个分布式的查询引擎，并不提供数据的储存服务，为此，presto是一个插拔式的设计思路，支持多种数据源，包括hive,hdfs，mysql,等。

（2）两者的基本架构

hive：Client将查询请求发送到hive Service，它会和Metastor交互，获取表的源信息(如表的位置结构)之后Hive Service会进行语法分析，解析成语法树，变成查询计划，进行优化后将查询计划交给执行引擎(默认是Map reduce)，然后翻译成Map Reduce任务来运行。

Presto:presto是在它内部做hive类似的逻辑

2 Presto内部架构

Presto是一个运行在多台服务器上的分布式系统。完整安装包括一个coordinator和多个worker。由客户端提交查询，从Presto命令行CLI提交到coordinator。 coordinator进行解析，分析并执行查询计划，然后分发处理队列到worker

Presto查询引擎是一个Master-Slave的架构模式，由三部分组成：

1.一个 coordinator

2.一个discovery server

3.多个worker

coodinator：用于解析查询sql，生成执行计划，并分发给worker执行。

discovery server：通常内嵌与Coordinator节点中，worker上线后，向discovery server注册。coodinator分发任务前，需要向discovery server获取可以正常工作worker列表。

worker：具体执行任务的工作节点。

presto可以借助hive的元信息找到hdfs上的节点

Presto中SQL运行流程：

step1：当我们执行一条sql查询，coordinator接收到这条sql语句以后，它会有一个sql的语法解析器去把sql语法解析变成一个抽象的语法树(AST)，这抽象的语法树它里面只是进行一些语法解析，如果你的sql语句里面，比如说关键字你用的是int而不是Integer，就会在语法解析这里给暴露出来

step2:如果语法是符合sql语法规范，之后会经过一个逻辑查询计划器的组件，他的主要作用是，比如说你sql里面出现的表，他会通过connector的方式去meta里面把表的schema，列名，列的类型等，全部给找出来，将这些信息，跟语法树给对应起来，之后会生成一个物理的语法树节点，这个语法树节点里面，不仅拥有了它的查询关系，还拥有类型的关系，如果在这一步，数据库表里某一列的类型，跟你sql的类型不一致，就会在这里报错.

step3:如果通过，就会得到一个逻辑的查询计划，然后这个逻辑查询计划，会被送到一个分布式的逻辑查询计划器里面，进行一个分布式的解析，分布式解析里面，他就会去把对应的每一个查询计划转化为task

step4:在每一个task里面，他会把对应的位置信息全部给提取出来，交给执行的plan，由plan把对应的task发给对应的worker去执行，这就是整个的一个过程,与hive默认的引擎Mapreduce相比，presto将数据放在内存中，task之间进行数据shuffle时，直接从内存里处理，所以很快。

3 .安装<

最低0.47元/天解锁文章

jaysen1005

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
CDH 安装 presto-server-0.216

1.Presto简介 Presto是由Facebook开源，完全基于内存的并行计算以及分布式SQL交互式查询引擎。它可以共享Hive的元数据，然后直接访问HDFS中的数据，同时支持Hadoop中常见的文件格式比如文本，ORC和Parquet。同Impala一样，作为Hadoop之上的SQL交互式查询引擎，通常比Hive要快5-10倍。另外，Presto不仅可以访问HDFS，还可以...
复制链接

扫一扫