背景
最近需要将mysql的数据库的数据导入到hive里,期间遇到了很多坑,这次来总结一下。
步骤
1.启动hiveServer2
kettle 是通过jdbc 来连接hive的,而jdbc 方式连接hive需要启动hiveServer2(thrift接口程序),执行如下命令来启动hiveServer2./hive --service hiveserver2 --hiveconf hive.server2.thrift.port=10001 --hiveconf hive.server2.thrift.bind.host=[SERVER_IP]
2. 修改plugin.properties 文件
文件位置:KETTLE_HOME/plugins/pentaho-big-data-plugin/plugin.properties
修改active.hadoop.configuration=hdp25(我使用的是apache hadoop,其他版本的hadoop选择相应的版本)
3. 下载对应的hive jar包
从服务器下载hive jar文件到之前的hdp25/lib文件夹下,主要注意hive-开头的:
4.kettle里创建数据库连接
选择连接类型为hadoop hive2,填写好主机名称、数据库名称,以及之前hiveServer2的端口号,以及用户名和密码,如下: