先说说思路:一 是直接从mysql输出至hive中,另外一个是先将数据搞到hdfs中,再load一下,当然这只是textfile存储格式而言,若是ORC等其他列式存储的话建议先搞一个textfile格式的中间表,再insert into table select 插进去
下面分别介绍下两种方式
第一种:
1.连接hive对外服务的组件hiveserver2
点击测试,OK之后会显示测试成功
测试直接将mysql中的stdcode表导入一下
抽取数据,插入的目标库中有没有对应为表的话点击下方的SQL,会默认执行DDL语句,create一下表,接下来NEXT
第二种方式:
1.创建hive 的数据库连接
就是上面的步骤
2:新建hadoop cluster连接
配置kettle hadoop cluster的配置文件
从服务器hadoop etc的配置文件中下载如下4个配置文件,覆盖kettle的p