kettle案例八连接hive--抽取hive的数据保存excel

最新推荐文章于 2024-03-04 09:51:52 发布

张小凡vip

最新推荐文章于 2024-03-04 09:51:52 发布

阅读量8.1k

点赞数

分类专栏：数据仓库文章标签： kettle hive 导出 excel

本文链接：https://blog.csdn.net/zzq900503/article/details/79088912

版权

数据仓库专栏收录该内容

47 篇文章 36 订阅

订阅专栏

我们在上篇文章已经学习了如何把数据放入hive中。

kettle案例七连接hive–抽取mongodb的数据保存到hive

本章学习如何把数据从hive中导出来。

官网参考连接
https://wiki.pentaho.com/display/BAD/Extracting+Data+from+Hive+to+Load+an+RDBMS

在hive中启动hiveserver2

我们在之前的文章中已经了解了hiveserver2。
hadoop组件—数据仓库(五)—通过JDBC连接hive的thrift或者hiveserver2

在使用JDBC方式连接hive之前需要启动hiveserver2。
使用命令

hive --service hiveserver2

下载对应的hive jar包

在kettle的安装目录中找到hadoop-configurations文件夹，如下:
D:\kettle\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations

在服务器上找到所有hive的相关jar包，下载下来放入hadoop-configurations目录下的hdp25的lib文件夹中。
如何找到服务器上找到所有hive的相关jar包，如果是自己安装的原生hive，那么在hive的安装目录中查找。
如果是通过CDH来安装的，可以参考文章:
hadoop基础—-hadoop实战(十一)—–hadoop管理工具—CDH的目录结构了解
通过CDH安装的hive jar包一般保存在/opt/cloudera/parcels/CDH/lib/hive中。
使用命令
cd /opt/cloudera/parcels/CDH/lib/hive
ls
如下图:

下载的包如下,都是hive开头的jar包:

放入D:\kettle\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp25\lib路径中如下图:

修改plugin.properties文件

找到kettle安装目录下的plugins/pentaho-big-data-plugin/plugin.properties文件，我的路径是:
D:\kettle\data-integration\plugins\pentaho-big-data-plugin。
如下图:

内容如下:

这里hdp25与path参数hadoop-configurations需要与自己的安装目录路径对应如下:

重启kettle新建DB连接

修改配置后以及新增jar包后需要重启kettle才生效。
重启后尝试建立DB连接如下:
主对象树–》DB连接右键新建—》填写相关参数(参数与自己的hivesever2的ip端口数据库名以及可登陆linux系统访问hiveserver2的用户名对应)
如图:

新建流程

新建流程如下:
表输入—》Excel输出

表输入选择数据库连接输入SQL。

Excel输出
Excel输出浏览保存文件的路径，获取字段即可
如图:

执行测试

点击kettle运行。
执行情况如下:

查看输出的路径已经有file.xls生成了，打开查看如图:
可以看到已经有数据写入了:

张小凡vip

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
kettle案例八连接hive--抽取hive的数据保存excel

我们在上篇文章已经学习了如何把数据放入hive中。kettle案例七连接hive–抽取mongodb的数据保存到hive本章学习如何把数据从hive中导出来。官网参考连接 https://wiki.pentaho.com/display/BAD/Extracting+Data+from+Hive+to+Load+an+RDBMS在hive中启动hiveserver2我们在之前...
复制链接

扫一扫