基于Hive Connector的openLooKeng Connector 创建复用机制剖析

最新推荐文章于 2024-08-07 09:43:30 发布

openLooKeng

最新推荐文章于 2024-08-07 09:43:30 发布

阅读量408

点赞数

分类专栏：大数据大数据技术博客文章标签： hive big data mysql

本文链接：https://blog.csdn.net/openlookeng/article/details/120362453

版权

本文介绍了如何基于Hive Connector创建openLooKeng的Mpp Connector，通过复用和自定义接口实现，包括创建新模块、加载机制和分片逻辑的定制，以满足特定业务需求。

摘要由CSDN通过智能技术生成

openLooKeng，Make Big Data Simplified

openLooKeng是一款开源的高效数据虚拟化分析引擎。本期，来自光大银行的小伙伴将为我们分享一篇博客，[基于Hive Connector的openLooKeng Connector创建复用机制剖析]，非常感谢这位小伙伴的投稿。

基于Hive Connector的openLooKeng Connector 创建复用机制剖析

本文作者 / 程一舰中国光大银行总行信息科技部

前言

openLooKeng作为一种跨多源数据的联邦计算引擎，天然的支持第三方数据源Connector的开发。如何进行简单的Connector的开发这里就不具体介绍了，具体可以参考自带的example示例。最近由于业务需要，需要对Hive Connector进行改造以支持我们的场景。为了避免对社区原生Hive Connector的侵入，我通过复用并自定义的方式创建了一个新的Mpp Connector。这里就以此为例，谈一谈这其中的机制。

1. 执行逻辑

上图是一个Hive Connector的整体执行逻辑，一条查询语句到了openLooKeng，会通过Coordinator进行解析，然后通过Thrift接口访问Hive的Metastore获取相关的元数据信息，这其中包括有哪些数据库，每个库里有哪些表以及表的数据位置及字段等信息。拿到这些信息后就会通过调度任务去HDFS上的具体位置拉取数据，最后将数据返回Coordinator进行聚合并返回。这整个过程最重要的就是获取元数据和拉取数据两个过程。话又说远了，如何创建一个新的Connector并复用Hive Connector的功能呢？