kettle 5.1.0 连接 Hadoop hive 2 (hive 1.2.1)

wzy0623

已于 2025-04-07 11:47:50 修改

阅读量1.4w

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Pentaho Work with Big Data 文章标签： kettle hadoop

于 2016-03-16 10:53:55 首次发布

本文链接：https://blog.csdn.net/wzy0623/article/details/50903133

Pentaho Work with Big Data 专栏收录该内容

30 篇文章

订阅专栏

1. 配置 HiveServer2，在 hive-site.xml 中添加如下的属性

1. 配置 HiveServer2，在 hive-site.xml 中添加如下的属性

<property>
    <name>hive.server2.thrift.bind.host</name>
    <value>192.168.56.101</value>
    <description>Bind host on which to run the HiveServer2 Thrift service.</description>
</property>
<property>
    <name>hive.server2.thrift.port</name>
    <value>10001</value>
    <description>Port number of HiveServer2 Thrift interface when hive.server2.transport.mode is 'binary'.</description>
</property>
<property>
    <name>hive.server2.thrift.min.worker.threads</name>
    <value>5</value>
    <description>Minimum number of Thrift worker threads</description>
</property>
<property>
    <name>hive.server2.thrift.max.worker.threads</name>
    <value>500</value>
    <description>Maximum number of Thrift worker threads</description>
</property>

2. 启动 HiveServer2

$HIVE_HOME/bin/hiveserver2

3. 修改 kettle 的配置文件

%KETTLE_HOME%/plugins/pentaho-big-data-plugin/plugin.properties

修改成下面的值：

active.hadoop.configuration=hdp20

4. 启动 kettle，配置数据库连接

如图1 所示：

图1

5. 测试

（1）在 hive 中建立测试表和数据

CREATE DATABASE test;
USE test;
CREATE TABLE a(a int,b int) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
LOAD DATA LOCAL INPATH '/home/grid/a.txt' INTO TABLE a;
SELECT * FROM a;

查询结果如图2 所示：