大数据最全Presto【基础 01】简介+架构+数据源+数据模型，2024年最新程序员进阶知识点

最新推荐文章于 2024-09-18 22:03:05 发布

2401_84186109

最新推荐文章于 2024-09-18 22:03:05 发布

阅读量879

点赞数 23

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2401_84186109/article/details/138725468

版权

程序员专栏收录该内容

111 篇文章 0 订阅

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

Worker 是负责执行任务和处理数据。Worker 从 Connector 获取数据。Worker 之间会交换中间数据。Coordinator 是负责从 Worker 获取结果并返回最终结果给 Client。
当Worker启动时，会广播自己去发现 Coordinator，并告知 Coordinator 它是可用，随时可以接受 Task。
Worker 与 Coordinator、Worker 通信同样是通过 REST API。

2.3 数据源

Presto特定的数据源：Connector、Catalog、Schema 和 Table。

Connector n. 连接器，连接头

Connector 是适配器，用于 Presto 和数据源（如Hive、RDBMS）的连接。可以认为是类似 JDBC 那样，但却是 Presto 的 SPI 的实现，使用标准的 API 来与不同的数据源交互。
Presto 有几个内建 Connector：JMX 的 Connector、System Connector（用于访问内建的 System table）、Hive 的 Connector、TPCH（用于TPC-H基准数据）。还有很多第三方的 Connector，所以Presto 可以访问不同数据源的数据。
每个 Catalog 都有一个特定的 Connector。如果使用 Catalog 配置文件，每个文件都必须包含connector.name 属性，用于指定 Catalog 管理器（创建特定的 Connector 使用）。一个或多个 Catalog 用同样的 connector 是访问同样的数据库。例如，有两个Hive集群。可以在一个 Presto 集群上配置两个 Catalog，两个 Catalog 都是用 Hive Connector，从而达到可以查询两个 Hive 集群的目的。

Catalog n. [图情][计]目录；登记

一个 Catalog 包含 Schema 和 Connector。例如，配置 JMX 的 Catalog，通过 JXM Connector 访问 JXM 信息。当执行一条SQL语句时，可以同时运行在多个 Catalog。
Presto 处理 table 时，是通过表的完全限定（fully-qualified）名来找到 Catalog。例如，一个表的权限定名是 hive.test_data.test，则 test 是表名，test_data 是 Schema，Hive 是 Catalog。
Catalog 的定义文件是在 Presto 的配置目录中。