Sqoop之快速入门
一、简介
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
二、原理
将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。
三、同步案例
3.1、导入数据
3.1.1、RDBMS到HDFS
1、全部导入
bin/sqoop import \
--connect jdbc:mysql://主机名:3306/数据库 \
--username 用户名 \
--password 密码 \
--table 表名 \
--target-dir HDFS路径 \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t"
2、查询导入
bin/sqoop import \
--connect jdbc:mysql://主机名:3306/数据库 \
--username 用户名 \
--password 密码 \
--target-dir HDFS路径 \