Kettle （三）：mysql导入hive

最新推荐文章于 2024-09-12 20:49:14 发布

RayBreslin

最新推荐文章于 2024-09-12 20:49:14 发布

阅读量5k

点赞数 5

分类专栏： Kettle 文章标签： Kettle mysql hive

本文链接：https://blog.csdn.net/u010886217/article/details/90490335

版权

Kettle 专栏收录该内容

9 篇文章 8 订阅

订阅专栏

一、实现功能

Kettle （三）：mysql导入hive
使用kettle将mysql中的数据导入hive，从而实现数据迁移。

二、环境

1.Centos7.4
2.CDH5.7.0
3.Kettle 8.0
4.JDK1.8

三、Kettle中建立数据库连接

1.   建立mysql数据库连接
（1）   新建mysql_local的数据库连接

（2）   输入mysql对应的信息

（3）   点击“测试”，连接成功后，点击“确认”

2.   建立hadoop连接
（1）   新建hadoop连接

（2）   配置hdfs连接信息，因为暂时没有zookeeper和oozie等，所以不用配置

（3）   点击“测试”，会依据（2）中填写信息，回复连接结果

结果连接成功
3.   创建连接hive的连接
（1）   服务器开启hiveserver2，从而客户端连接hive
（2）   在hive根目录下
bin/hive --service hiveserver2
（3）   配置与kettle相关jar包
参考：https://blog.csdn.net/u010886217/article/details/89509323
（4）   新建hiveserver2的数据库连接

（5）配置hiveserver2的相关信息

（6）   点击“测试”连接hive，成功后，点击“确定”保存连接

四、转换

1.   实现功能
（1）   在hive中创建mysql表对应的表结构
（2）   将mysql中表导出为txt格式，保存到hdfs临时目录

2.   创建mysql表输入
选择mysql数据库连接，并且选择需要转移的student表

3. 创建hive表输出步骤，完成建立对应表
（1）选择hive表连接和转移到hive中表的名称，点击SQL

（3）修改自动生成的SQL语句

CREATE TABLE student_mysql
(
  id INT, name STRING, age INT)
  row format delimited fields terminated by ';'
;

（4）   单击“确定”，此时hive中建表成功。

（5）   使mysql-》hive的连接失效，从而不影响后续操作。
点击连线，使之变为灰色

4.   mysql表导出为txt文档保存在hdfs
（1）引入“Hadoop file output”步骤

（2）输入hdfs相应信息，修改“文件”框

（3）修改“内容”框

（4）修改“字段”框
先点击“获取字段”，然后点击“最小宽度”，否则按照默认宽度，输出txt文件的文字宽度太大。

（5）运行转换，使mysql表转换到hdfs上

结果：

五、创建job实现将txt文档转移hive的目录下

1.   创建job，拖入start、转换、Hadoop copy files组件

2.   修改“转换”，将四中的转换填写入

3.   修改“Hadoop copy files”组件
设置源文件路径和目标路径

4.   执行job

六、验证

1.启动hive

bin/hive

2.查询

hive (test)> select * from student_mysql;
OK
student_mysql.id        student_mysql.name      student_mysql.age
1       zhangsan        4
2       lisi    5
Time taken: 0.286 seconds, Fetched: 2 row(s)
hive (test)> select student_mysql.age from student_mysql;
OK
student_mysql.age
4
5
Time taken: 0.074 seconds, Fetched: 2 row(s)