kettle案例八连接hive--抽取hive的数据保存excel

我们在上篇文章已经学习了如何把数据放入hive中。

kettle案例七连接hive–抽取mongodb的数据保存到hive

本章学习如何把数据从hive中导出来。

官网参考连接
https://wiki.pentaho.com/display/BAD/Extracting+Data+from+Hive+to+Load+an+RDBMS

在hive中启动hiveserver2

我们在之前的文章中已经了解了hiveserver2。
hadoop组件—数据仓库(五)—通过JDBC连接hive的thrift或者hiveserver2

在使用JDBC方式连接hive之前需要启动hiveserver2。
使用命令

hive --service hiveserver2

下载对应的hive jar包

在kettle的安装目录中找到hadoop-configurations文件夹,如下:
D:\kettle\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations

在服务器上找到所有hive的相关jar包,下载下来放入hadoop-configurations目录下的hdp25的lib文件夹中。
如何找到服务器上找到所有hive的相关jar包,如果是自己安装的原生hive,那么在hive的安装目录中查找。
如果是通过CDH来安装的,可以参考文章:
hadoop基础—-hadoop实战(十一)—–hadoop管理工具—CDH的目录结构了解
通过CDH安装的hive jar包一般保存在/opt/cloudera/parcels/CDH/lib/hive中。
使用命令
cd /opt/cloudera/parcels/CDH/lib/hive
ls
如下图:

下载的包如下,都是hive开头的jar包:

放入D:\kettle\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp25\lib路径中如下图:

修改plugin.properties文件

找到kettle安装目录下的plugins/pentaho-big-data-plugin/plugin.properties文件,我的路径是:
D:\kettle\data-integration\plugins\pentaho-big-data-plugin。
如下图:

内容如下:

这里hdp25与path参数hadoop-configurations需要与自己的安装目录路径对应如下:

重启kettle新建DB连接

修改配置后以及新增jar包后需要重启kettle才生效。
重启后尝试建立DB连接如下:
主对象树–》DB连接右键新建—》填写相关参数(参数与自己的hivesever2的ip端口数据库名以及可登陆linux系统访问hiveserver2的用户名对应)
如图:

新建流程

新建流程如下:
表输入—》Excel输出

表输入选择数据库连接输入SQL。

Excel输出
Excel输出浏览保存文件的路径,获取字段即可
如图:

执行测试

点击kettle运行。
执行情况如下:

查看输出的路径已经有file.xls生成了,打开查看如图:
可以看到已经有数据写入了:

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

张小凡vip

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值