数据转换工具Sqoop的作用和使用
sqoop的作用就是将关系型数据库中的某张表数据抽取到Hadoop的hdfs文件系统当中,底层运用的还是Map Reduce 。它利用MapReduce加快数据传输速度,批处理方式进行数据传输。也可以将HDFS上的文件数据或者是Hive表中的数据导出到关系型数据库中的某张表。
sqoop1和sqoop2是两个不同的版本,完全不兼容。
Sqoop2比Sqoop1的改进,引入sqoop server,集中化管理Connector等
多种访问方式:CLI,Web UI,REST API
引入基于角色的安全机制
本博主使用sqoop1,因为sqoop1相对而言稳定。
sqoop的配置和测试都是基于完全分布式集群,用的是Hadoop2.X版本,cdh5.3.6。
配置Sqoop 1.x
Sqoop安装目录下的conf目录,重命名sqoop-env-template.sh为sqoop-env.sh,配置环境变量:
export HADOOP_COMMON_HOME=/opt/modules/hadoop-2.5.0-cdh5.3.6
export HADOOP_MAPRED_HOME