数据迁移工具 - Sqoop

本文详细介绍了Sqoop的安装配置步骤,包括环境变量设置、JDBC驱动拷贝等,并通过实际案例展示了如何使用Sqoop进行数据的导入(包括全量和增量)与导出,以及如何创建和执行job。Sqoop作为一款开源工具,主要用于Hadoop与传统数据库之间的数据传递。
摘要由CSDN通过智能技术生成

一、Sqoop概述

        Sqoop是一款开源的工具,主要用于在hadoop(hive)与传统数据库(mysql、Oracle、postgresql)间进行数据的传递。可以将关系型数据库中的数据导入HDFS中,也可以将HDFS中的数据导入到关系型数据库中。
        
        将导入导出命令转换为MapReduce程序来实现。翻译出的MapReduce中主要是对inputformat和outputformat进行定制。

二、安装配置

        Sqoop 官网:http://sqoop.apache.org/
        Sqoop下载地址:http://www.apache.org/dyn/closer.lua/sqoop/

        1. 下载、上传并解压
        将下载的安装包 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 上传到虚拟机中;
        解压缩软件包;
        tar zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
        mv sqoop-1.4.7.bin__hadoop-2.6.0/ ../servers/sqoop-1.4.7/

        2. 增加环境变量、使之生效
        vi /etc/profile
        # 增加以下内容
        export SQOOP_HOME=/opt/lg/servers/sqoop-1.4.7
        export PATH=$PATH:$SQOOP_HOME/bin
        source /etc/profile

        3. 创建、修改配置文件
        # 配置文件位置 $SQOOP_HOME/conf;要修改的配置文件为 sqoop-env.sh
        cp sqoop-env-template.sh sqoop-env.sh
        vi sqoop-env.sh
        # 在文件最后增加以下内容
        export HADOOP_COMMON_HOME=/opt/lagou/servers/hadoop-2.9.2
        export HADOOP_MAPRED_HOME=/opt/lagou/servers/hadoop-2.9.2
        export HIVE_HOME=/opt/lagou/servers/hive-2.3.7

        4. 拷贝JDBC驱动
        # 拷贝jdbc驱动到sqoop的lib目录下(备注:建立软链接也可以)
        ln -s /opt/lagou/servers/hive-2.3.7/lib/mysql-connector-java-5.1.46.jar /opt/lagou/servers/sqoop-1.4.7/lib/

        5. 拷贝jar
        5.1 将 $HIVE_HOME/lib 下的 hive-common-2.3.7.jar,拷贝到 $SQOOP_HOME/lib目录下。如不拷贝在MySQL往Hive导数据的时候将会出现错误:ClassNotFoundException:org.apache.hadoop.hive.conf.HiveConf
        # 硬拷贝 和 建立软链接都可以,选择一个执行即可。下面是硬拷贝
        cp $HIVE_HOME/lib/hive-common-2.3.7.jar $SQOOP_HOME/lib/
        # 建立软链接
        ln -s /opt/lagou/servers/hive-2.3.7/lib/hive-common-2.3.7.jar /opt/lagou/servers/sqoop-1.4.7/lib/hive-common-2.3.7.jar
        5.2 将 $HADOOP_HOME/share/hadoop/tools/lib/json-20170516.jar 拷贝到
$SQOOP_HOME/lib/ 目录下;否则在创建sqoop job时会报:
java.lang.NoClassDefFoundError: org/json/JSONObject
        cp $HADOOP_HOME/share/hadoop/tools/lib/json-20170516.jar $SQOOP_HOME/lib/

        6. 安装验证
        sqoop version
        省略了警告 ... ...
        20/06/19 10:37:24 INFO sqoop.Sqoop: Running Sqoop version:1.4.7 Sqoop 1.4.7
        git commit id 2328971411f57f0cb683dfb79d19d4d19d185dd8 Compiled by maugli on Thu Dec 21 15:59:58 STD 2017
        # 测试Sqoop是否能够成功连接数据库
        sqoop list-databases --connect jdbc:mysql://linux123:3306/?useSSL=false --username hive --password 12345678
        ... ...
        information_schema
        hivemetadata
        mysql
        performance_schema
      

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值