sqoop 导入到hive字段全是null_Sqoop 一点通

sqoop 是什么?

sqoop 主要用于异构数据:

1. 将数据从hadoop,hive 导入、导出到关系型数据库mysql 等;

2. 将关系型数据库 mysql 中数据导入、导出到 hadoop 、hve 。

sqoop 版本说明

sqoop 1 版本主要从1.4.0 到 1.4.7;sqoop 2 版本主要从1.99.1 到1.99.7。

sqoop1 和 sqoop2 的主要区别

sqoop2 对 sqoop 1 主要在性能、安全方面做了优化升级,并新增了服务端,sqoop2 可以通过编程 rest api 的方式进行数据同步,不过目前 sqoop 2 没有实现将 mysql 数据直接导入到 hive,可以用 sqoop 1 版本通过 shell 客户端脚本方式实现 mysql 同步 hive 功能。

sqoop 基本原理

sqoop 1 主要通过 hadoop 的分布式计算 mapreduce 任务进行数据的同步。

8f7a78301eb54302b91c02c0294f15d6

(sqoop1 架构)

b4019d03e8874d17801ee8b658ab5c2c

(sqoop 2 架构)

sqoop 命令

将 mysql 中数据导入到 hive 为例,包括全量、增量导入:

$ sqoop import

--connect jdbc:mysql://ip:3306/db 数据库连接串

--username root 用户名

--password root 密码

--split-by id 执行并行分批字段,一般主健,配合 -m 使用

-m 2 mapper 数

--fields-terminated-by "" 导出字段分隔符,此次为制表符为分隔符

--lines-terminated-by "" 换行符

--hive-import

--create-hive-table 创建 hive 表,如果目标表已经存在了,那么创建任务会失败

--hive-table pas_med_info hive 表名

--null-string 'N' 将mysql 中的NULL数据转换为hive 的 NULL

--target-dir /apps/hive/warehouse/db/dt='日期' hive 在 hdfs 存储路径,dt='日期' 可以分区导入,当写成脚本时可以将日期做为变量,每天定时同步导入。

-- query where [可选] 增量导入方式一 ,推荐使用,直接可以用shell 脚本定时跑数据,方便简单

--incremental append或lastmodify [可选] 增量导入方式二,操作一

--append [可选] 如果选择lastmodify 则需要添加此命令,配合操作一使用

–check-column createtime [可选] 用于检查增量数据的列 ,必须是 timestamp 列,配合操作一使用

Sqoop2 代码示例

以 java 语言,将 mysql 中数据导入到 hdfs 为例:

1. 添加依赖

org.apache.sqoop    sqoop-client    1.99.7

2. 创建 sqoop 客户端

String url = "http://ip:12000/sqoop/";SqoopClient client = new SqoopClient(url);client.setServerUrl(url);

3. 创建 mysql link

4. 创建 hdfs link

5. 创建 job 并提交同步数据任务

限于篇幅,就不大量贴代码了,请关注公众号,私信我,我会将完整实例发你。

请关注公众号:媛道,sqoop

或长按二维码,识别关注

1b787e978bc343959adc2b10b5343349
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值