官网下载地址,就在官网首页就有下载,点击下载最新稳定版:http://sqoop.apache.org/
或者给我贡献点积分也行:https://download.csdn.net/download/qq_41622603/12917824
一、上传并解压
(1)把tar包上传到/opt/software目录下
执行解压:tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
(2)把mysql驱动复制到Sqoop的lib目录下:mysql驱动下载地址:https://download.csdn.net/download/qq_41622603/12909766
二、修改Sqoop-env.sh配置文件
进入到sqoop下的conf目录
cd /opt/software/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/conf
因为目录里面只有sqoop-env-template.sh我们要把他复制并改名为sqoop-env.sh
cp sqoop-env-template.sh sqoop-env.sh
vi sqoop-env.sh
把hadoop的家目录配置进HADOOP_COMMON_HOME和HADOOP_MAPRED_HOME
三、配置环境变量
cd ~
vi .bash_profile
把Sqoop加入到环境变量
四、编写Sqoop执行文件
把执行文件放到/opt/sqoopconf下(这个文件随便放到哪里都行)
切换到opt目录下:cd /opt
创建sqoopconf文件夹:mkdir sqoopconf
切换到sqoopconf文件夹:cd sqoopconf
创建并编辑执行文件sqoop:vi conf1
下面是配置从mysql导入到Hive
import //使用import工具
--connect //指定连接的目标数据库
jdbc:mysql://node1:3306/environment
--username //数据库用户名
root
--password //数据库密码
123456
--table //要导入的表名
vehicle_owner
--columns //要导入的列
id,address,email
--where //查询条件
id>0
//导入到HDFS的路径,mycluster是hadoop下/etc/hadoop/hdfs-site.xml配置的dfs.nameservices,如果不是配置hadoop高可用的话可以直接写namenode所在主机的ip或主机映射名
--target-dir
hdfs://mycluster/sqoop1
--delete-target-dir //若目标目录已存在则删除
-m
1
--as-textfile //导入的数据以文本格式存放在HDFS上
//如果只导入到hdfs可以不用下面内容
--hive-import //向hive中导入数据
--hive-overwrite //数据存在则覆盖
--create-hive-table //创建Hive表
--hive-table //指定表名
t_user
--hive-partition-key //指定分区字段
dt
--hive-partition-value 指定分区名
'2020-10-10'
五、执行Sqoop
这里需要先启动Mysql,当然hadoop集群也要启动
然后执行:sqoop --options-file /opt/sqoopconf/conf1
执行完成,导入了71条记录
然后进入hive shell