Sqoop学习笔记

最新推荐文章于 2022-12-05 18:00:25 发布

心情这个东西

最新推荐文章于 2022-12-05 18:00:25 发布

阅读量194

点赞数

分类专栏： Sqoop 笔记文章标签： sqoop 学习 hadoop

本文链接：https://blog.csdn.net/m0_72898076/article/details/128141904

版权

Sqoop 笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.1、何为Sqoop？
Sqoop(SQL-to-Hadoop)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导出到关系型数据库中。

1.2、为什么需要用Sqoop？
我们通常把有价值的数据存储在关系型数据库系统中，以行和列的形式存储数据，以便于用户读取和查询。但是当遇到海量数据时，我们需要把数据提取出来，通过MapReduce对数据进行加工，获得更符合我们需求的数据。数据的导入和导出本质上是Mapreduce程序，充分利用了MR的并行化和容错性。为了能够和HDFS系统之外的数据库系统进行数据交互，MapReduce程序需要使用外部API来访问数据，因此我们需要用到Sqoop。

1.3、关系图

1.4、架构图

在 mapreduce 中主要是对 inputformat 和 outputformat 进行定制。
Sqoop工具接收到客户端的shell命令或者Java api命令后，通过Sqoop中的任务翻译器(Task Translator)将命令转换为对应的MapReduce任务，而后将关系型数据库和Hadoop中的数据进行相互转移，进而完成数据的拷贝。

导入到hdfs中：

sqoop import

--connect jdbc:mysql://ip:3306/databasename #指定JDBC的URL 其中database指的是(Mysql或者Oracle)中的数据库名

--table tablename #要读取数据库database中的表名

--username root #用户名

--password 123456 #密码

--target-dir /path #指的是HDFS中导入表的存放目录(注意：是目录)

--fields-terminated-by '\t' #设定导入数据后每个字段的分隔符，默认；分隔

--lines-terminated-by '\n' #设定导入数据后每行的分隔符

--m 1 #并发的map数量1,如果不设置默认启动4个map task执行数据导入，则需要指定一个列来作为划分map task任务的依据

-- where ’查询条件‘ #导入查询出来的内容，表的子集

--incremental append #增量导入

--check-column：column_id #指定增量导入时的参考列

--last-value：num #上一次导入column_id的最后一个值

--null-string ‘’ #导入的字段为空时，用指定的字符进行替换

导入到hive中

--hive-import #导入到hive

--hive-overwrite #可以多次写入

--hive-database databasename #创建数据库，如果数据库不存在的必须写，默认存放在default中

--create-hive-table #sqoop默认自动创建hive表

--delete-target-dir #删除中间结果数据目录

--hive-table tablename #创建表名

导入所有的表放到hdfs中：

 sqoop import-all-tables  --connect jdbc:mysql://ip:3306/库名 --username 用户名  --password  密码  --target-dir 导入存放的目录

导出(目标表必须在mysql数据库中已经建好，数据存放在hdfs中)：

sqoop export

--connect jdbs:mysql://ip:3600/库名 #指定JDBC的URL 其中database指的是(Mysql或者Oracle)中的数据库名

--username用户名 #数据库的用户名

--password密码 #数据库的密码

--table表名 #需要导入到数据库中的表名

--export-dir导入数据的名称 #hdfs上的数据文件

--fields-terminated-by ‘\t’ #HDFS中被导出的文件字段之间的分隔符

--lines-terminated-by '\n' #设定导入数据后每行的分隔符

--m 1 #并发的map数量1,如果不设置默认启动4个map task执行数据导入，则需要指定一个列来作为划分map task任务的依据

--incremental append #增量导入

--check-column：column_id #指定增量导入时的参考列

--last-value：num #上一次导入column_id的最后一个值

--null-string ‘’ #导出的字段为空时，用指定的字符进行替换