sqoop简介
sqoop是一个hdfs和关系型数据库之间传送数据的工具
官方介绍
Sqoop is a tool designed to transfer data between Hadoop and relational databases or mainframes. You can use Sqoop to import data from a relational database management system (RDBMS) such as MySQL or Oracle or a mainframe into the Hadoop Distributed File System (HDFS), transform the data in Hadoop MapReduce, and then export the data back into an RDBMS.
sqoop的使用
常用的一些导入命令
#导入到hdfs中
sqoop import --connect jdbc:mysql://jerry:3306/elec --username root --password yzgylq --table elec_fileupload --m 1
--target-dir:默认值是/user/$username/table_name
--where 'id ="1" ':子查询
#导入到hive表中
sqoop import --connect jdbc:mysql://jerry:3306/elec --username root --password yzgylq --hive-import --m 1 --table elec_fileupload
常用的导出命令
导出的时候首先需要自己手动创建好表的结构
sqoop export --connect jdbc:mysql://jerry:3306/elec --username root --password yzgylq
--table elec_fileupload --export-dir /home/hadoop/sqoopdata
一个问题需要注意
在将RDBMS中的数据读入到hive表之前,注意检查hdfs的用户路径下有没有以表名字命名的文件夹,因为在将数据导入到hive表中,创建hive表之前,会先将RDBMS中的表的数据,读入到路径/user/ username/ table_name这个文件夹中,而且是采用的mapreduce的方式,所以这个文件夹一开始是不能存在的,之后会再执行一个MapReduce程序,先将表创建好,然后再将之前/user/$username/table_name的数据装载到hive表中,并且以table_name命名的文件夹也不会存在了