Pentaho Work with Big Data（三）—— 向 Hadoop 集群导入数据

原创已于 2025-04-07 11:29:50 修改 · 3.1k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#kettle #hadoop

于 2016-04-12 15:22:47 首次发布

Pentaho Work with Big Data 专栏收录该内容

30 篇文章

订阅专栏

本文指导如何使用PDI导入数据至HDFS和Hive表中，包括下载示例文件、配置Hadoop连接、执行作业及检查数据是否成功导入。

1. 向 HDFS 导入数据

（1）打开 PDI，新建一个作业

（2）编辑 Hadoop Copy Files 作业项

（3）保存并执行作业

（4）检查 Hadoop

2. 向 Hive 导入数据

（1）执行下面的 HSQL 建立一个 hive 表

（2）打开PDI，新建一个作业，

（3）编辑 Hadoop Copy Files 作业项

（4）保存并执行作业

（5）查询 test.weblogs 表

1. 向 HDFS 导入数据

从下面的地址下载 web 日志示例文件，解压缩后的 weblogs_rebuild.txt 文件放到 /home/grid/data-integration/test 目录下。 http://wiki.pentaho.com/download/attachments/23530622/weblogs_rebuild.txt.zip?version=1&modificationDate=1327069200000
建立一个作业，把文件放置到 Hadoop 中。

（1）打开 PDI，新建一个作业

如图1 所示：

图1

（2）编辑 Hadoop Copy Files 作业项

如图2 所示：

图2

说明：hadoop_local 是已经建立好的 Hadoop Clusters 连接，建立过程参考：Pentaho Work with Big Data（一）—— Kettle 连接 Hadoop集群

（3）保存并执行作业

日志如图3 所示：

图3

从图3 可以看到，作业已经成功执行。

（4）检查 Hadoop

结果如图4 所示：

图4

从图4 可以看到，weblogs_rebuild.txt 已经传到了 Hadoop 的 /user/grid/ 目录下。

2. 向 Hive 导入数据

从下面的地址下载 web 日志示例文件：
http://wiki.pentaho.com/download/attachments/23530622/weblogs_parse.txt.zip?version=1&modificationDate=1327068013000
解压缩后的 weblogs_parse.txt 文件放到 Hadoop 的 /user/grid/ 目录下：

hadoop fs -put weblogs_parse.txt /user/grid/

建立一个作业，将文件导入到 hive 表中。

（1）执行下面的 HSQL 建立一个 hive 表

从图5 可以看到，已经在 test 库中建立了 weblogs 表，此时表中没有数据。

create table test.weblogs (
client_ip    string,
full_request_date string,
day    string,
month    string,
month_num int,
year    string,
hour    string,
minute    string,
second    string,
timezone    string,
http_verb    string,
uri    string,
http_status_code    string,
bytes_returned        string,
referrer        string,
user_agent    string)
row format delimited
fields terminated by '\t';