Kettle整合Hadoop

一.kettle与hahoop环境整合

1、确保Hadoop的环境变量设置好HADOOP_USER_NAME为root

export HADOOP_USER_NAME=root

2、从hadoop下载核心配置文件

/export/servers/hadoop-2.7.7/etc/hadoop/hdfs-site.xml
/export/servers/hadoop-2.7.7/etc/hadoop/core-site.xml

3、把hadoop核心配置文件(hdfs-site.xml和core-site.xml)放入kettle目录
data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp26
在这里插入图片描述
这里有许多文件夹,不知道怎么配在哪
在这里插入图片描述
因为我的hadoop是2.7.7所以我要选择hdp26
选择HortonWorks HDP 2.6.x,然后点击ok
在这里插入图片描述
4、修改data-integration\plugins\pentaho-big-data-plugin\plugin.properties文件
在这里插入图片描述
5、 创建Hadoop clusters
在这里插入图片描述
在这里插入图片描述

Hadoop环境准备

1、查看hadoop的文件系统
通过浏览器访问

http://hadoop102:50070

通过终端访问

hadoop fs -ls / # 查看文件

2、在hadoop文件系统中创建/hadoop/test目录

hadoop fs -mkdir -p /hadoop/test  

3、在本地创建1.txt
vim 1.txt

id,name
1,xiaoxin
2,weibo

4、上传1.txt到hadoop文件系统的/hadoop/test目录

hadoop fs -put 1.txt /hadoop/test

Hadoop file input组件

Kettle在Big data分类中提供了一个Hadoop file input 组件用来从hdfs文件系统中读取数据。
需求:
从Hadoop文件系统读取/hadoop/test/1.txt文件,把数据输入到Excel中。
在这里插入图片描述
2、配置Hadoop File Input组件

指定hdfs的目标路径:
在这里插入图片描述
指定文件内容格式:
在这里插入图片描述
在这里插入图片描述
配置excel输出组件:
在这里插入图片描述
在这里插入图片描述
执行结果
在这里插入图片描述

Hadoop file output组件

在这里插入图片描述
需求:

  • 读取 user.json 把数据写入到hdfs文件系统的的/hadoop/test/2.txt中。
    实现步骤:
    1、拖入以下组件
    在这里插入图片描述
    2、配置 JSON 输入组件
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    如果权限报错
# 修改权限
hadoop fs -chmod -R 777  /

在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Knight_AL

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值