Sqoop
1)Sqoop介绍
Sqoop即 SQL to Hadoop ,是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具,充分利用MapReduce并行特点以批处理的方式加快数据传输,发展至今主要演化了二大版本,Sqoop1和Sqoop2,我们以Sqoop1为案例进行讲解,Sqoop2商用不太稳定。Sqoop工具是Hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive、hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入。
2)sqoop安装---安装很简单-->主要是给个jdbc的jar包。然后将bin目录下的hive_home和zookeeper_home注释掉,当然也得配置环境变量
①解压tar包
②配置环境变量
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HIVE_HOME/lib/*:$HIVE_HOME/conf
export SQOOP_HOME=/opt/sqoop
③把MySQL的JDBC驱动包复制到Sqoop的lib目录下
④给jdk环境下的/opt/jdk/jre/lib/security/java.policy 文件中加入
permission javax.management.MBeanTrustPermission "register";
⑤使用sqoop list-databases --connect jdbc:mysql://127.0.0.1:3306/ --username root --password root 测试是否安装成功
3)sqoop导入导出(hdfs)
A、导入
a、普通导入
sqoop import --connect jdbc:mysql://192.168.1.101:3306/库名 --username 数据库用户名 --password 密码 --table 表名 --columns '列1, 列2...'
b、指定输出路径、指定数据分隔符
sqoop import --connect jdbc:my