参数详细资料 观看这个博客
http://shiyanjun.cn/archives/624.html
Sqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出,其中主要使用了import和export这两个工具。这两个工具非常强大,提供了很多选项帮助我们完成数据的迁移和同步。比如,下面两个潜在的需求:
业务数据存放在关系数据库中,如果数据量达到一定规模后需要对其进行分析或同统计,单纯使用关系数据库可能会成为瓶颈,这时可以将数据从业务数据库数据导入(import)到Hadoop平台进行离线分析。
对大规模的数据在Hadoop平台上进行分析以后,可能需要将结果同步到关系数据库中作为业务的辅助数据,这时候需要将Hadoop平台分析后的数据导出(export)到关系数据库。
这里,我们介绍Sqoop完成上述基本应用场景所使用的import和export工具,通过一些简单的例子来说明这两个工具是如何做到的。
import和export工具有些通用的选项,如下表所示:
选项
含义说明
--connect
指定JDBC连接字符串
--connection-manager
指定要使用的连接管理器类
--driver
指定要使用的JDBC驱动类
--hadoop-mapred-home
指定$HADOOP_MAPRED_HOME路径
--help
打印用法帮助信息
--password-file
设置用于存放认证的密码信息文件的路径
-P
从控制台读取输入的密码
--password
设置认证密码
--username
设置认证用户名
--verbose
打印详细的运行信息
--connection-param-file
可选,指定存储数据库连接参数的属性文件
数据导入工具import
import工具,是将HDFS平台外部的结构化存储系统中的数据导入到Hadoop平台,便于后续分析。我们先看一下import工具的基本选项及其含义,如下表所示:
选项
含义说明
--append
将数