【应用场景】
sqoop是常用的 关系数据库离线同步到数仓的 工具
sqoop导入有两种方式:
1)直接导入到hdfs,然后再load到hive表中
2)直接导入到hive中
一般生产情况导业务库数据,都是指定导入,不能全部导入,对业务库压力大。
下面介绍sqoop import 导入到hive中的 完整参数命令
【sqoop-import-mysql到hive完整命令】
1)需要已知的参数
- mysql 的jdbc连接参数:jdbc链接、用户名、密码
- mysql同步表的信息:列、表名
- hive链接参数 :是否有链接限制
- hive目标表的信息:表名、分隔符、是否分区
2)具体参数
两种方式:1)指定mysql列导入 2)写相应的mysql的query sql语句导入
1)制定mysql表的某列、某表
#(必须参数)sqoop 导入,-D 指定参数,当前参数是集群使用队列名称
sqoop import -D mapred.job.queue.name=q \
#(必须参数)