即席查询Presto
1 Presto简介 Presto是一个开源的、分布式SQL查询引擎、数据量支持GB到PB,主要用来处理秒级查询。
虽然Presto可以解析SQL,但它不是一个标准的数据库,不是MySQL的替代品,也不能用来处理在线事务。
1.1 Prosto架构 Presto CLI :Presto客户端,将执行的SQL发送给Presto Coordinator
Presto Coordinator:Presto协调器,接受客户端发来的SQL解析成任务发送给PrestoWorker去执行
Presto Worker:执行Coordinator发来的任务,处理数据。
Catalog:数据源。
Connector:连接器,对接不同的数据源,需要不同的连接器。
只要拿到Hive的元数据信息,就能查询数据。因为Hive的元数据存储了有哪些表,表在HDFS上的路径。
获取Hive的元数据的方式有两种:1是直连Hive,2通过Hive的metastore(Presto) Kafka的话,只要拿到bootstrap server地址和topic,那就能够查询数据了
Schema:类似于mysql的数据库database
Table:表
Hive Metastore:Hive的metastore服务,启动了metastore服务,只要在Hive Connector中配置了metastore的地址,那么就能查询到元数据信息。能拿到元数据那就能查询到数据。