第一章 Sqoop专题之基本命令

最新推荐文章于 2023-12-15 17:51:37 发布

随缘清风殇

最新推荐文章于 2023-12-15 17:51:37 发布

阅读量1.6k

点赞数

分类专栏： # 大数据采集工具文章标签： sqoop hadoop hbase

本文链接：https://blog.csdn.net/qq_27924553/article/details/122060167

版权

14 篇文章 5 订阅

订阅专栏

（1）Sqoop内部操作流程

①、编写sqoop导入/导出指令，

②、Hadoop将Sqoop指令翻译成MR程序，里面只包含Map阶段

③、运行在Hadoop分布式集群，操作HDFS/HBASE/HIVE进行数据写入/写出

④、给客户端反馈操作后的结果;

（2）Sqoop生成的MR程序，只有Map阶段，没有Reduce阶段
原因：纯粹的数据迁移，不涉及到聚合操作，没必要使用reduce

（3）数据迁入与数据迁出

①数据迁入：RDBMS --》 HDFS/HIVE/HBASE

②数据迁出：HDFS/HIVE/HBASE --》 RDBMS

sqoop help          #查看sqoop常用命令
sqoop help import   #查看import常用参数
sqoop help export   #查看export常用参数

sqoop job --list         #查看现有的job
sqoop job --create       #创建job
sqoop job --drop         #删除job
sqoop job -exec jobname  #执行job

注意点：

①需要在定时器中反复执行的sqoop指令一般封装在sqoop job中；

②job中封装了sqoop操作的详情（import，export）；

③有增量导入的需求，必须将sqoop操作封装到job中，否则，增量导入的最新字段就无法存储，就会从头开始导入

1、该脚本时创建sqoop的job脚本,原则上只需要执行一次即可，以后每次执行，只需要执行sqoop job -exec jobname;
2、如过需要重新运行，则运行方式：脚本名称.sh

在.sqoop目录下，查看metastore.db.script的文件

在这里插入图片描述

sqoop import
--connect       \
--username  $1      \
--passward  $2    \
--table         \
--target-dir    \
--delete-target-dir \
-m $3

sh sqoop-import.sh root 88888888 3

关注

专栏目录