大数据（二十八）：Sqoop命令&参数

最新推荐文章于 2023-08-01 20:12:54 发布

敲代码的旺财

最新推荐文章于 2023-08-01 20:12:54 发布

阅读量262

点赞数

分类专栏：大数据文章标签：大数据 sqoop

本文链接：https://blog.csdn.net/qq_34886352/article/details/83275756

版权

大数据专栏收录该内容

32 篇文章 7 订阅

订阅专栏

一、import

将关系型数据库中的数据导入到HDFS（包括Hive，HBase）中，如果导入的是Hive，那么当Hive中没有对应表时，则自动创建。

1.命令：

bin/sqoop import \
--connect jdbc:mysql://linux01:3306/company \
--username root \
--password root \
--table staff \
--hive-import

增量导入数据到hive中，mode=append

bin/sqoop import \
--connect jdbc:mysql://linux01:3306/company \
--username root \
--password root \
--table staff \
--num-mappers 1 \
--fields-terminated-by "\t" \
--target-dir /user/hive/warehouse/staff_hive \
--check-column id \
--incremental append \
--last-value 3

append不能与--hive-等参数同时使用

增量导入数据到hdfs中，mode=lastmodified

先在mysql中建表并插入几条数据：

create table company.staff_timestamp(id int(4),name varchar(255),sex varchar(255)),last_modified timestamp DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP);
insert into company.staff_timestamp(id,name,sex)values(1,'AAA','female');
insert into company.staff_timestamp(id,name,sex)values(2,'BBB','female');

先导入一部分数据：

bin/sqoop import \
--connect jdbc:mysql://linux01:3306/company \
--username root \
--password root \
--table staff_timestamp \
--delete-target-dir \
--m 1

插入新的数据

insert into company.staff_timestamp(id,name,sex)values(3,'ccc','female');

在增量导入一部分数据：

bin/sqoop import \
--connect jdbc:mysql://linux01:3306/company \
--username root \
--password root \
--table staff_timestamp \
--check-column last_modified \
--incremental lastmodified \
--last-value "2017-09-28 22:20:38" \
--m 1 \
--append

使用lastmodified方式导入数据要指定增量数据是要--append（追加）还是要--merge-key（合并）
last-value指定的值是会包含于增量导入的数据中

2.参数：

参数	说明
--append	将数据追加到HDFS中已经存在的DataSet中，如果使用该参数，sqoop会把数据线导入到临时文件目录，再合并
--as-avrodatafile	将数据导入到一个Avro数据文件中
--as-sequencefile	将数据导入到一个sequence文件中
--boundary-query<statement>	边界查询，导入的数据为该参数的值（一条sql语句）所执行的结果区间内的数据
--column<col1,col2,col3>	指定要导入的字段
--direct	直接导入模式，使用的是关系数据库自带的导入导出工具，以便加快导入导出过程
--direct-split-size	在使用上面direct直接导入的基础上，对导入的流按字节分块，即达到该阈值就产生一个新文件
--inline-lob-limit	设定大对象数据类型的最大值
--m 或 -num-mappers	启动N个map来并行导入数据，默认4个
--query 或 --e<statement>	将查询结果的数据导入，使用时必须伴随参--target-dir,--hive-table，如果查询中有where条件，则条件后必须加上$CONDITIONS关键字
--split-by<column-name>	按照某一列来切分表的工作单元，不能与--autoreset-to-one-mapper连用
--table<table-name>	关系数据库的表名
--target-dir<dir>	指定HDFS路径
--warehouse-dir<dir>	与14参数不能同时使用，导入数据到HDFS时指定的目录
--where	从关系数据库导入数据时的查询条件
--z或--compress	允许压缩
--compression-codec	指定hadoop压缩编码类，默认为gzip
--null-string<null-string>	string类型的列如果null，替换为指定字符串
--null-non-string<null-string>	非string类型的列如果null，替换为指定字符串
--check-column<col>	作为增量导入判断的列名
--incremental<mode>	mode：append或lastmodified
--last-value<value>	指定某一个值，用于标记增量导入的位置

二、export

从HDFS（包括Hive和HBase）中奖数据导出到关系数据库中。

1.命令：

bin/sqoop export \
--connect jdbc:mysql://linux01:3306/company \
--username root \
--password root \
--table staff \
--export-dir /user/company \
--input-fields-terminated-by "\t" \
--num-mappers 1

2.参数

参数	说明
--direct	利用数据库自带的导入导出工具，以便于提高效率
--export-dir<dir>	存放数据的HDFS的源目录
-m 或 --num-mappers<n>	启动N个map来并行导入数据，默认4个
--table<table-name>	指定导出到哪个RDBMS中的表
--update-key<col-name>	对某一列的字段进行更新操作
--update-mode<mode>	updateonly allowinsert（默认）
--input-null-string<null-string>	请参考import该类似参数说明
--input-null-non-string<null-string>	请参考import该类似参数说明
--staging-table<staging-table-name>	创建一张临时表，用于存放所有事务的结果，然后将所有事务结果一次性导入目标表中，防止错误。
--clear-staging-table	如果第9个参数非空，则可以在导出操作执行前，清空临时事务结果表

三、codegen

将关系型数据中的表映射为一个java类，在该类中有各列对应的各个字段。

1.命令

bin/sqoop codegen \
--connect jdbc:mysql://linux01:3306/company \
--username root \
--password root \
--table staff \
--bindir /home/admin/Desktop/staff \
--class-name Staff \
--fields-terminated-by "\t"

2.参数

参数	说明
--bindir<dir>	指定生成的java文件、编辑成的class文件及将生成文件打包为jar的文件输出路径
--class-name<name>	设定生成的Java文件指定的名称
--outdir<dir>	生成java文件存放的路径
--package-name<name>	包名，如com.z，就会生成com和z两级目录
--input-null-non-string<null-str>	在生成的java文件中，可以将null字符串或者不存在的字符串设置为想要设定的值
--input-null-string<null-str>	将null字符串替换成想要替换的值（一般与--input-null-non-string<null-str>同时使用）
--map-column-java<arg>	数据库字段在生成的Java文件中会映射成各种属性，且默认的数据类型与数据库类型保持对应关系。该参数可以改变默认类型，例如：--map-column-java id=long，name=String
--null-non-string<null-str>	在生成java文件时，可以将不存在或者null的字符串设置为其他值
--null-string<null-str>	在生成java文件时，将null字符串设置为其他值（一般与--null-non-string<null-str>同时使用）
--table<table-name>	对应关系数据库中的表名，生成的Java文件中的各个属性与该表的各个字段一一对应

四、create-hive-table

生成与关系数据库表结构对应的hive表结构。

1.命令：

bin/sqoop create-hive-table \
--connect jdbc:mysql://linux01:3306/company \
--username root \
--password root \
--table staff \
--hive-table hive_staff

2.参数：

参数	说明
--hive-home<dir>	Hive的安装目录，可以通过该参数覆盖掉默认的hive目录
--hive-overwrite	覆盖掉在Hive表中已经存在的数据
--create-hive-table	默认是false，如果目录表已经存在了，那么创建任务会失败
--hive-table	后面接要创建的hive表
--table	指定关系数据库的表名

五、eval

可以快速的使用SQL语句对关系型数据库进行操作，经常用于在import数据之前，了解一下SQL语句是否正确，数据是否正常，并可以将结果显示在控制台。

1.命令：

bin/sqoop eval \
--connect jdbc:mysql://linux01:3306company \
--username root \
--password root \
--query "SELECT * FROM staff"

2.参数

参数	说明
--query 或 --e	后跟查询的SQL语句

六、import-all-tables

可以将RDBMS中的所有表导入到HDFS中，每一个表都对应一个HDFS命令

1.命令：

bin/sqoop import-all-tables \
--connect jdbc:mysql://linux01:3306/company \
--username root \
--password root \
--warehouse-dir /all_tables

2.参数

参数	说明
--as-avrodatafile	含义和import对应的含义一致
--as-sequencefile	含义和import对应的含义一致
--as-textfile	含义和import对应的含义一致
--direct	含义和import对应的含义一致
--direct-split-size<n>	含义和import对应的含义一致
--inline-lob-limit<n>	含义和import对应的含义一致
--m或--num-mappers<n>	含义和import对应的含义一致
--warehouse-dir<dir>	含义和import对应的含义一致
-z 或 --compress	含义和import对应的含义一致
--compression-codec	含义和import对应的含义一致

七、job

用来生成一个sqoop任务，生成后不会立即执行，需要手动执行。

1.命令：

bin/sqoop job \
--create myjob --import-all-tables \
--connect jdbc:mysql://linux01:3306/company \
--username root \
--password root \
bin/sqoop job \
--list
bin/sqoop job \
--exec myjob

注意import-all-tables和它左边的--之间有一个空格
如果需要连接metastore，则--meta-connect jdbc:hsqldb:hsql://linux01:16000/sqoop

2.参数：

参数	说明
--create<job-id>	创建job参数
--delete<job-id>	删除一个job
--exec<job-id>	执行一个job
--help	显示job帮助
--list	显示job列表
--meta-connect<jdbc-uri>	用来连接metastore服务
--show<job-id>	显示一个job的信息
--verbose	打印命令运行时的详细信息

在执行一个job时，如果需要手动输入数据库密码，可以做如下优化

<property>
    <name>sqoop.metastore.client.record.password</name>
    <value>true</value>
</property>

八、list-databases

1.命令：

bin/sqoop list-databases \
--connect jdbc:mysql://linux01:3306/ \
--username root \
--password root

参数：与公用参数一样

九、list-tables

命令：

bin/sqoop list-tables \
--connect jdbc:mysql://linux01:3306/company \
--username root \
--password root

参数：与公用参数一样

十、merge

将HDFS中不同目录下面的数据合并在一起并放入指定目录中

1.数据环境：

new_staff
1    AAA    male
2    BBB    male
3    CCC    male
4    DDD    male

old_staff
1    AAA    female
2    BBB    female
3    CCC    female
6    DDD    female

上边数据的列之间的分隔符应该为\t，行与行之间的分割符为\n，如果直接复制，请检查之。

2.命令

创建JavaBean：

bin/sqoop codegen \
--connect jdbc:mysql://linux01:3306/company \
--username root \
--password root \
--table staff \
--bindir /home/admin/Desktop/staff \
--class-name Staff \
--fields-terminated-by "\t"

开始合并

bin/sqoop merge \
--new-data /test/new/ \
--onto /test/old/ \
--target-dir /test/merged \
--jar-file /home/admin/Desktop/staff/Staff.jar \
--class-name Staff \
--merge-key id

3.参数

参数	说明
--new-data<path>	HDFS合并的数据目录，合并后在新的数据集中保留
--noto<path>	HDFS合并后，重复的部分在新的数据集中被覆盖
--merge-key<col>	合并键，一般是主键ID
--jar-file<file>	合并时引入的jar包，该jar包通过codegan工具生成的jar包
--class-name<class>	对应的表名或对象名，该class类是包含在jar包中的
--target-dir<path>	合并后的数据在HDFS里存放的目录

十一、metastore

记录了Sqoop job的元数据信息，如果不启动该服务，那么默认job元数据的存储目录为~/.sqoop，可以在sqoop-site.xml中修改。

1.命令

bin/sqoop metastore

2.参数

参数	说明
--shutdown	关闭metastore

敲代码的旺财

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据（二十八）：Sqoop命令&参数

一、import 将关系型数据库中的数据导入到HDFS（包括Hive，HBase）中，如果导入的是Hive，那么当Hive中没有对应表时，则自动创建。1.命令：bin/sqoop import \--connect jdbc:mysql://linux01:3306/company \--username root \--password root \--tab...
复制链接

扫一扫

专栏目录