drill apache_使用Apache Drill将Pentaho数据集成到MapR

drill apache

Pentaho数据集成(PDI)提供了ETL功能,可简化捕获,清理和存储数据的过程。 其统一一致的格式使其可访问并与最终用户和物联网技术相关。

Apache Drill是一种无模式SQL-on-Hadoop引擎,可让您针对具有各种格式(例如JSON,CSV,Parquet,HBase等)的不同数据集运行SQL查询。通过将其与PDI集成,您可以灵活地进行操作通过Pentaho强大的PDI产品进行严肃的数据集成。 MapR文档中的Drill Tutorials页面可以帮助您熟悉Apache Drill。

第1步

您需要管理员权限才能执行这些步骤。 确保满足以下软件要求:

  • MapR融合数据平台(版本4.x或5.x)
  • Apache Drill(1.6版或更高版本)以及最新的Drill JDBC驱动程序
  • Apache ZooKeeper(以复制模式运行)
  • Pentaho数据集成 (5.4或更高版本)

在开始之前,您还应该确保PDI客户端系统可以解析Drill群集上的主机名

第2步

您要做的第一件事是获取Drill群集ID并构造一个自定义URL字符串。 这将是我们稍后将使用的通过PDI建立JDBC连接的方法。

  1. 获取Drill集群ID并不太坏:您所要做的就是转到Drill界面中的查询页面,然后运行一个SQL查询,如下所示:

从sys.boot中选择string_val,其中name ='drill.exec.cluster-id';

  1. Apache Drill将返回您的集群ID。 一旦有了它,就可以创建一个自定义URL,最终看起来像这样:

jdbc:drill:zk = mapr1:5181,mapr2:5181,mapr3:5181 / drill / 任何您的集群ID

第三步

有了自定义URL字符串后,请按照以下步骤建立与PDI的连接:

  1. 打开PDI,开始新的转换,然后单击最左侧的“视图”选项卡。
  2. 展开Transformation 1 ,然后右键单击Database connections并选择New

  1. 在“ 数据库连接”窗口中执行以下操作:
    1. 命名连接。 在下面的示例中,我们使用Drill作为连接名称
    2. 选择“ 通用数据库”作为您的数据库类型,选择“本机JDBC”作为您的访问类型。
    3. 在右侧的“ 设置”下,复制并粘贴您的“ 自定义连接网址”
    4. 输入自定义驱动程序类名称
    5. 现在将用户名和密码字段留空。

  1. 单击测试以验证连接。 您应该会看到一个连接成功窗口。

故障排除技巧

如果您的连接测试不起作用,请尝试验证您的“自定义URL”字符串正确无误,并确保PDI客户端的主机文件可以解析群集的专用主机名。

摘要

到此过程结束时,您应该已经使用Apache Drill将Pentaho Data Integration客户端成功连接到MapR集群。 尽情享受您的数据!

翻译自: https://www.javacodegeeks.com/2017/01/connecting-pentaho-data-integration-mapr-using-apache-drill.html

drill apache

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值