我们在上篇文章已经学习了如何把数据放入hive中。
kettle案例七连接hive–抽取mongodb的数据保存到hive
本章学习如何把数据从hive中导出来。
官网参考连接
https://wiki.pentaho.com/display/BAD/Extracting+Data+from+Hive+to+Load+an+RDBMS
在hive中启动hiveserver2
我们在之前的文章中已经了解了hiveserver2。
hadoop组件—数据仓库(五)—通过JDBC连接hive的thrift或者hiveserver2
在使用JDBC方式连接hive之前需要启动hiveserver2。
使用命令
hive --service hiveserver2
下载对应的hive jar包
在kettle的安装目录中找到hadoop-configurations文件夹,如下:
D:\kettle\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations
在服务器上找到所有hive的相关jar包,下载下来放入hadoop-configurations目录下的hdp25的lib文件夹中。
如何找到服务器上找到所有hive的相关jar包,如果是自己安装的原生hive,那么在hive的安装目录中查找。
如果是通过CDH来安装的,可以参考文章:
hadoop基础—-hadoop实战(十一)—–hadoop管理工具—CDH的目录结构了解
通过CDH安装的hive jar包一般保存在/opt/cloudera/parcels/CDH/lib/hive中。
使用命令
cd /opt/cloudera/parcels/CDH/lib/hive
ls
如下图:
下载的包如下,都是hive开头的jar包:
放入D:\kettle\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp25\lib路径中如下图:
修改plugin.properties文件
找到kettle安装目录下的plugins/pentaho-big-data-plugin/plugin.properties文件,我的路径是:
D:\kettle\data-integration\plugins\pentaho-big-data-plugin。
如下图:
内容如下:
这里hdp25与path参数hadoop-configurations需要与自己的安装目录路径对应如下:
重启kettle新建DB连接
修改配置后以及新增jar包后需要重启kettle才生效。
重启后尝试建立DB连接如下:
主对象树–》DB连接右键新建—》填写相关参数(参数与自己的hivesever2的ip端口数据库名以及可登陆linux系统访问hiveserver2的用户名对应)
如图:
新建流程
新建流程如下:
表输入—》Excel输出
表输入选择数据库连接输入SQL。
Excel输出
Excel输出浏览保存文件的路径,获取字段即可
如图:
执行测试
点击kettle运行。
执行情况如下:
查看输出的路径已经有file.xls生成了,打开查看如图:
可以看到已经有数据写入了: