Pentaho Work with Big Data(三)—— 向Hadoop集群导入数据

1. 向HDFS导入数据
. 从下面的地址下载web日志示例文件,解压缩后的weblogs_rebuild.txt文件放到/home/grid/data-integration/test目录下。 http://wiki.pentaho.com/download/attachments/23530622/weblogs_rebuild.txt.zip?version=1&modificationDate=1327069200000
. 建立一个作业,把文件放置到Hadoop中。
(1)打开PDI,新建一个作业,如图1所示。


图1

(2)编辑'Hadoop Copy Files'作业项,如图2所示。


图2

说明:hadoop_local是已经建立好的Hadoop Clusters连接,建立过程参考 http://blog.csdn.net/wzy0623/article/details/51086821
(3)保存并执行作业,日志如图3所示。


图3

从图3可以看到,作业已经成功执行。
(4)检查Hadoop,结果如图4所示。


图4

从图4可以看到,weblogs_rebuild.txt已经传到了Hadoop的/user/grid/目录下。

2. 向Hive导入数据
. 从下面的地址下载web日志示例文件。
http://wiki.pentaho.com/download/attachments/23530622/weblogs_parse.txt.zip?version=1&modificationDate=1327068013000
. 解压缩后的weblogs_parse.txt文件放到Hadoop的/user/grid/目录下。
hadoop fs -put weblogs_parse.txt /user/grid/
. 建立一个作业,将文件导入到hive表中。
(1)执行下面的HSQL建立一个hive表,从图5可以看到,已经在test库中建立了weblogs表,此时表中没有数据。
create table test.weblogs (
client_ip    string,
full_request_date string,
day    string,
month    string,
month_num int,
year    string,
hour    string,
minute    string,
second    string,
timezone    string,
http_verb    string,
uri    string,
http_status_code    string,
bytes_returned        string,
referrer        string,
user_agent    string)
row format delimited
fields terminated by '\t';
图5
(2)打开PDI,新建一个作业,如图1所示。
(3)编辑'Hadoop Copy Files'作业项,如图6所示。


图6

说明:hadoop_local是已经建立好的Hadoop Clusters连接,建立过程参考 http://blog.csdn.net/wzy0623/article/details/51086821
(4)保存并执行作业,日志如图7所示。


图7

从图7可以看到,作业已经成功执行。
(5)查询test.weblogs表,结果如图8所示。


图8

从图8可以看到,向test.weblogs表中导入了445454条数据。
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值