Sqoop1安装及使用

最新推荐文章于 2024-06-03 12:06:11 发布

gakki_smile

最新推荐文章于 2024-06-03 12:06:11 发布

阅读量1.6k

点赞数

分类专栏： hadoop集群配置

本文链接：https://blog.csdn.net/gakki_smile/article/details/77287432

版权

hadoop集群配置专栏收录该内容

9 篇文章 0 订阅

订阅专栏

之所以选择Sqoop1是因为Sqoop2目前问题太多。无法正常使用，综合比较后选择Sqoop1。
Sqoop1安装配置比较简单
1下载解压到特定目录
2拷贝MySQL的jdbc驱动包mysql-connector-Java-5.1.31-bin.jar到sqoop/lib目录下。
3vi ~/.bash_profile

export SQOOP_HOME=/home/hadoop/chadoop/sqoop/sqoop-1.4.6.bin__hadoop-2.0.4-alpha
export PATH=$PATH:$SQOOP_HOME/bin

复制sqoop/conf/sqoop-env-template.sh为sqoop-env.sh
添加相关的配置

#Setpath to where bin/Hadoop is available
exportHADOOP_COMMON_HOME=/opt/cdh5/hadoop
#Setpath to where hadoop-*-core.jar isavailable
exportHADOOP_MAPRED_HOME=/opt/cdh5/hadoop
#setthe path to where bin/Hbase isavailable
exportHBASE_HOME=/opt/cdh5/hbase 
#Setthe path to where bin/Hive is available
exportHIVE_HOME= /opt/cdh5/hive
#Setthe path for where zookeper config diris
exportZOOCFGDIR= /opt/cdh5/zookeeper

（5）、测试Sqoop
发现有警告
修改$SQOOP_HOME/bin/configure-sqoop
注释掉HCatalog，Accumulo检查(除非你准备使用HCatalog，Accumulo等HADOOP上的组件)

## Moved to be a runtime check in sqoop.
#if [ ! -d "${HCAT_HOME}" ]; then
# echo "Warning: $HCAT_HOME does not exist! HCatalog jobs willfail."
# echo 'Please set $HCAT_HOME to the root of your HCatalog installation.'
#fi
#if [ ! -d "${ACCUMULO_HOME}" ];then
# echo "Warning: $ACCUMULO_HOME does not exist! Accumulo imports willfail."
# echo 'Please set $ACCUMULO_HOME to the root of your Accumuloinstallation.'
#fi

再次执行sqoop version
你也可以查看某一个命令的使用说明：

$ sqoopimport --help
$ sqoophelp import

sqoop import 的一个示例如下：

$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS

你还可以使用 –options-file 来传入一个文件，使用这种方式可以重用一些配置参数：

$ sqoop --options-file /users/homer/work/import.txt --table TEST

/users/homer/work/import.txt 文件内容如下：

import
--connect
jdbc:mysql://192.168.56.121:3306/metastore
--username
hiveuser
--password 
redhat

二、Sqoop使用说明
1、测试连接：
（1）显示mysql数据库列表
sqoop list-databases –connect jdbc:mysql://hadoop003:3306/–username root –P
（2）显示数据库里所有表:
sqoop list-tables –connectjdbc:mysql://hadoop003:3306/EDW –username root -P
2、Mysql与HDFS互导
（1）mysql导入到hdfs
把mysql中表fin_cashier_order导入到hdfs，导入之前查询一下fin_cashier_order表中的数据
共：199条

sqoop import --connectjdbc:mysql://hadoop003:3306/ssa --username root --password *****  --table fin_cashier_order --target-dir/user/hadoop/databases/ssa/fin_cashier_order -m 4

-m 表示Map并发数
若是不写–target-dir 则默认是hdfs上的user/username/tablename 路径
如果重复执行，会提示目录已经存在，可以手动删除
运行完mapreduce结束后去HDFS上检查
验证hdfs上导入的数据：

hadoop fs -ls /user/hadoop/databases/ssa/fin_cashier_order
hadoop fs -cat /user/hadoop/databases/ssa/fin_cashier_order/part-m-00000

（2）HDFS导入到mysql
把HDFS中数据导入到Mysql表中，mysql中需要预先建立空表fin_cashier_order2，此时该表为空

sqoop export --connectjdbc:mysql://hadoop003:3306/ssa --table fin_cashier_order2 --username root--password ****** --export-dirhdfs://jrtestcluster/user/hadoop/databases/ssa/fin_cashier_order/

运行完显示
16/02/25 16:23:39 INFOmapreduce.ExportJobBase: Transferred 70.4619 KB in 48.3235 seconds (1.4581KB/sec)
16/02/25 16:23:39 INFO mapreduce.ExportJobBase:Exported 199 records.
显示导出199条记录。
到表fin_cashier_order2查看
并且正好也是199条。
至此，用Sqoop将mysql与HDFS互导功都验证完毕
你还可以指定其他的参数：
参数说明
–append 将数据追加到hdfs中已经存在的dataset中。使用该参数，sqoop将把数据先导入到一个临时目录中，然后重新给文件命名到一个正式的目录中，以避免和该目录中已存在的文件重名。
–as-avrodatafile 将数据导入到一个Avro数据文件中
–as-sequencefile 将数据导入到一个sequence文件中
–as-textfile 将数据导入到一个普通文本文件中，生成该文本文件后，可以在hive中通过sql语句查询出结果。
–boundary-query 边界查询，也就是在导入前先通过SQL查询得到一个结果集，然后导入的数据就是该结果集内的数据，格式如：–boundary-query ‘select id,no from t where id = 3’，表示导入的数据为id=3的记录，或者 select min(), max() from

，注意查询的字段中不能有数据类型为字符串的字段，否则会报错
–columns

--split-by <column> 表的列名，用来切分工作单元，一般后面跟主键ID
--table <table-name>    关系数据库表名，数据从该表中获取
--delete-target-dir 删除目标目录
--target-dir <dir>  指定hdfs路径
--warehouse-dir <dir>   与 --target-dir 不能同时使用，指定数据导入的存放目录，适用于hdfs导入，不适合导入hive目录
--where 从关系数据库导入数据时的查询条件，示例：--where "id = 2"
-z,--compress   压缩参数，默认情况下数据是没被压缩的，通过该参数可以使用gzip压缩算法对数据进行压缩，适用于SequenceFile, text文本文件, 和Avro文件
--compression-codec Hadoop压缩编码，默认是gzip
--null-string <null-string> 可选参数，如果没有指定，则字符串null将被使用
--null-non-string <null-string> 可选参数，如果没有指定，则字符串null将被使用
示例程序：
$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --columns "tbl_id,create_time" --where "tbl_id > 1" --target-dir /user/hive/result
使用 sql 语句
参照上表，使用 sql 语句查询时，需要指定 $CONDITIONS
$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --query 'SELECT * from TBLS where \$CONDITIONS ' --split-by tbl_id -m 4 --target-dir /user/hive/result
上面命令通过 -m 1 控制并发的 map 数。
使用 direct 模式：
$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --delete-target-dir --direct --default-character-set UTF-8 --target-dir /user/hive/result
指定文件输出格式：
$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by"\t" --lines-terminated-by "\n" --delete-target-dir --target-dir /user/hive/result
这时候查看 hdfs 中数据(观察分隔符是否为制表符)：
$ hadoop fs -ls result
Found 5 items
-rw-r--r--   3 root hadoop          0 2014-08-04 16:07 result/_SUCCESS
-rw-r--r--   3 root hadoop         69 2014-08-04 16:07 result/part-m-00000
-rw-r--r--   3 root hadoop          0 2014-08-04 16:07 result/part-m-00001
-rw-r--r--   3 root hadoop        142 2014-08-04 16:07 result/part-m-00002
-rw-r--r--   3 root hadoop         62 2014-08-04 16:07 result/part-m-00003

$ hadoop fs -cat result/part-m-00000
34  1406784308  8   0   root    0   45  test1   EXTERNAL_TABLE  null    null    null

$ hadoop fs -cat result/part-m-00002
40  1406797005  9   0   root    0   52  test2   EXTERNAL_TABLE  null    null    null
42  1407122307  7   0   root    0   59  test3   EXTERNAL_TABLE  null    null    null
指定空字符串：
$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by "\t" --lines-terminated-by "\n" --delete-target-dir --null-string '\\N' --null-non-string '\\N' --target-dir /user/hive/result
如果需要指定压缩：
$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by "\t" --lines-terminated-by "\n" --delete-target-dir --null-string '\\N' --null-non-string '\\N' --compression-codec "com.hadoop.compression.lzo.LzopCodec" --target-dir /user/hive/result
附：可选的文件参数如下表。
参数  说明
--enclosed-by <char>    给字段值前后加上指定的字符，比如双引号，示例：--enclosed-by '\"'，显示例子："3","jimsss","dd@dd.com"

--escaped-by <char> 给双引号作转义处理，如字段值为"测试"，经过 --escaped-by "\\" 处理后，在hdfs中的显示值为：\"测试\"，对单引号无效
--fields-terminated-by <char>   设定每个字段是以什么符号作为结束的，默认是逗号，也可以改为其它符号，如句号.，示例如：--fields-terminated-by
--lines-terminated-by <char>    设定每条记录行之间的分隔符，默认是换行串，但也可以设定自己所需要的字符串，示例如：--lines-terminated-by "#" 以#号分隔
--mysql-delimiters  Mysql默认的分隔符设置，字段之间以,隔开，行之间以换行\n隔开，默认转义符号是\，字段值以单引号'包含起来。
--optionally-enclosed-by <char> enclosed-by是强制给每个字段值前后都加上指定的符号，而--optionally-enclosed-by只是给带有双引号或单引号的字段值加上指定的符号，故叫可选的

3、Mysql与Hive互导

出现如下错误：
错误1:
ERROR tool.ImportTool: EncounteredIOException running import job: java.io.IOException: DataStreamer Exception:
atorg.apache.hadoop.hdfs.DFSOutputStream $DataStreamer.run(DFSOutputStream.java:796) Caused by: java.lang.OutOfMemoryError:unable to create new native thread at java.lang.Thread.start0(Native Method) at java.lang.Thread.start(Thread.java:714) atorg.apache.hadoop.hdfs.DFSOutputStream$ DataStreamer.initDataStreaming(DFSOutputStream.java:581)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:669)

解决方法：

net.ipv4.ip_local_port_range = 1024 65000
修改系统参数
echo "100000" > /proc/sys/kernel/threads-max
echo "100000" > /proc/sys/kernel/pid_max （默认32768）
echo "200000" > /proc/sys/vm/max_map_count （默认65530）
修改/etc/security/limits.conf
* - nproc 999999
* -nofile 999999

PS:nproc是修改系统的max user processes大小；nofile 是修改open files的大小，另外Linux 2.6.25内核之前有个宏定义，定义了这个值的最大值，为1024*1024，正好是100万，而在2.6.25内核及其之后，这个值是可以通过/proc/sys/fs/nr_open来设置,不过，999999足够用了。
很多人可能会遇到，只能启动32000多个线程就不能再起更多的线程了，其实就是pid_max = 32768 给限制住了
增加map数量，通过sqoop -m 选项指定更多的map。通过更多的map，降少每个子进程占用的heap space，避免超出hadoop设置的Java heap space 大小

sqoop ... -m <map 数量>

错误2:
Caused by: java.lang.RuntimeException:java.sql.SQLException: Access denied for user ‘root’@’hadoop003’ (usingpassword: YES)
atorg.apache.sqoop.mapreduce.db.DBInputFormat.getConnection(DBInputFormat.java:220)
atorg.apache.sqoop.mapreduce.db.DBInputFormat.setConf(DBInputFormat.java:165)
… 9 more
程序正常运行，结果也正确。说明数据库连接是正确的，而且单独用mysql连接也是可以的。就是报这个异常错误。
查询数据库里用户信息

JDBC连接的机器名是hadoop003,虽然已经赋予root所有机器的远程访问权限（“％”），但是hadoop003这个账户可能没有开通机器的远程权限。于是给hadoop003这个机器开通远程权限。

GRANT ALL PRIVILEGES ON *.* TO'root'@'hadoop003' IDENTIFIED BY '********' WITH GRANT OPTION;

再次执行导入命令。成功。不再出现上面错误。

错误3:

从mysql导入到Hive里报如下错误：

ERROR hive.HiveConfig: Could not loadorg.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.
16/02/26 14:43:47 ERROR tool.ImportTool:Encountered IOException running import job: java.io.IOException:java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf
数据已经导入到HDFS。从HDFS移动到Hive里时出错。提示HIVE_CONF_DIR配置不对。
但是将HIVE_CONF_DIR添加到sqoop-env.sh、hadoop-env.sh、hive-env.sh都不起作用。
最终正确的解决方法：
在/etc/profile  里添加下面一句话
exportHADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HIVE_HOME/lib/*

Sqoop-1.4.7版本好像解决了这个问题。期待这个版本

gakki_smile

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Sqoop1安装及使用

之所以选择Sqoop1是因为Sqoop2目前问题太多。无法正常使用，综合比较后选择Sqoop1。 Sqoop1安装配置比较简单 1下载解压到特定目录 2拷贝MySQL的jdbc驱动包mysql-connector-Java-5.1.31-bin.jar到sqoop/lib目录下。 3vi ~/.bash_profileexport SQOOP_HOME=/home/hadoop/chadoo
复制链接

扫一扫

专栏目录