sqoop相关整理

最新推荐文章于 2021-11-07 18:11:43 发布

嗯嗲和滴

最新推荐文章于 2021-11-07 18:11:43 发布

阅读量476

点赞数

分类专栏：大数据文章标签： sqoop 大数据

本文链接：https://blog.csdn.net/qq_38889342/article/details/115354423

版权

大数据专栏收录该内容

8 篇文章 2 订阅

订阅专栏

sqoop是什么

sqoop基本命令

sqoop hive ------> mysql

sqoop oracle ------> hive

sqoop是什么

sqoop是传统数据库与hadoop之间的数据同步工具。主要依托MapReduce分布式批处理。

sqoop官网手册 http://sqoop.apache.org/docs/1.4.4/SqoopUserGuide.html

只有Map阶段，没有Reduce阶段的任务。

sqoop基本命令

sqoop hive ------> mysql

sqoop export -m 1 --connect jdbc:mysql://192.168.17.128:3306/test --username root --password 123456 --table u --export-dir /hadoopmr/flow.txt --input-fields-terminated-by ',' --mysql-delimiters

sqoop oracle ------> hive

sqoop import \  
--connect jdbc:mysql://mysql.example.com/sqoop \  
--username sqoop \  
--password sqoop \  
--table cities  
--where "country = 'USA'"  
--target-dir /etl/input/cities  
--warehouse-dir /etl/input/  
--num-mappers 10  
--null-string '\\N' \  
--null-non-string '\\N'  
--incremental append \   
--check-column id \   
--last-value 1



--connnect: 指定JDBC URL
--username/password：mysql数据库的用户名
--table：要读取的数据库表
--where:导入数据的过滤条件
--target-dir：HDFS中导入表的存放目录
--warehouse-dir：指定表存放的父目录，只需要指定一次，下次存放时会在该目录下自动以该表名命名
--num-mappers：并发的map数
--null-string：null值时，HDFS存储为N
--null-non-string：非字符类型的字段为空时，存储为N
--incremental append或lastmodified：自动增量方式
--check-column
--last-value：上一次导入的最后一个值

sqoop import \
  --query 'SELECT a.*, b.* FROM a JOIN b on (a.id == b.id) WHERE $CONDITIONS' \
  --split-by a.id --target-dir /user/foo/joinresults

sqoop expert ........... 从hadoop里导出数据

sqoop import ........... 导入数据到hadoop里

sqoop处理hive与mysql的空值

--null-string '\\N' \
--null-non-string '\\N' 这俩参数重要。因为hive和mysql里对于空值的默认形式不一样，hive是 '\N' ,mysql是 'null'

sqoop导出数据一致性

sqoop导出数据时默认用4个map，有些map可能成功了，数据进入目标表了，有些map可能失败了，数据没能进入目标表。用来汇报的表数据就不全，这种情况是不允许的。可以通过参数

--staging-table方式

sqoop export --connect jdbc:mysql://192.168.137.10:3306/user_behavior --username root --password 123456 --table app_cource_study_report --columns watch_video_cnt,complete_video_cnt,dt --fields-terminated-by "\t" --export-dir "/user/hive/warehouse/tmp.db/app_cource_study_analysis_${day}" --staging-table app_cource_study_report_tmp --clear-staging-table --input-null-string '\N'