sqoop使用以及常见问题

最新推荐文章于 2024-09-08 19:00:00 发布

jeffrey_ding

最新推荐文章于 2024-09-08 19:00:00 发布

阅读量5.4k

点赞数 2

分类专栏：大数据文章标签： sqoop etl 数据迁移 hive

本文链接：https://blog.csdn.net/jerrydzan/article/details/88527619

版权

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1、hdfs文件的权限问题

问题分析与解决：

根据报错信息是hdfs文件的权限问题，命令进入集群执行的用户为null，而hdfs文件所有者为hdfs。

要么以用户hdfs执行命令，要么调整hdfs文件的权限，因为我只是使用hdfs文件的其中之一，暂时考虑：以hdfs用户执行命令。

在~/.bash_profile文件增加：

export HADOOP_USER_NAME=hdfs

2、文件格式问题

hive sequencefile导入文件遇到FAILED: SemanticException Unable to load data to destination table. Error: The file that you are trying to load does not match the file format of the destination table.错误

原因

这是因为SequenceFile的表不能使用load来加载数据，只能导入sequence类型的数据

解决办法

先创建一个临时表（save as textfile），将数据导入进去，
然后再导入这个表里 insert into table test_sq select * from test_tex

3、错误：ERROR tool.ImportTool: Error during import: No primary key could be found for table TRANS_GJJY02. Please specify one with --split-by or perform a sequential import with '-m 1'.

根据错误提示我们可以知道这是因为表中的数据没有设置主键。而针对这个问题有两种杰解决方案：

方案一：老老实实地在表中设置主键，然后再执行这个导入语句，就不会出错。

方案二：有些数据无法设置主键，比如很多的监测记录数据，找不到唯一值，针对这种数据，我们可以根据上面的错误提示通过以下两个方法来解决：

（1）将你的map个数设置为1（Sqoop默认是4）

-m 1

(2)使用--split-by，后面跟上表的最后一列名字。从而能够对数据进行分行，命令如下：

--split-by column1

这两种解决方法，推荐使用方法（2），因为方法（1）只用一个map，效率太低，相比较而言，方法（2）可以自己设置map个数，效率会高一些。

4、Output directory already exists错误

增加配置参数 --delete-target-dir \

5、ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Generating splits for a textual index column allowed only in case of "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" property passed as a parameter

Caused by: Generating splits for a textual index column allowed only in case of "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" property passed as a parameter
at org.apache.sqoop.mapreduce.db.TextSplitter.split(TextSplitter.java:67)
at org.apache.sqoop.mapreduce.db.DataDrivenDBInputFormat.getSplits(DataDrivenDBInputFormat.java:201)
... 23 more

解决方法：在sqoop import命令后加参数 -Dorg.apache.sqoop.splitter.allow_text_splitter=true

6、常用命令整理

参数	说明
`--append`	将数据追加到hdfs中已经存在的dataset中。使用该参数，sqoop将把数据先导入到一个临时目录中，然后重新给文件命名到一个正式的目录中，以避免和该目录中已存在的文件重名。
`--as-avrodatafile`	将数据导入到一个Avro数据文件中\|
`--as-sequencefile`	将数据导入到一个sequence文件中
`--as-textfile`	将数据导入到一个普通文本文件中，生成该文本文件后，可以在hive中通过sql语句查询出结果。
`--boundary-query <statement>`	边界查询，也就是在导入前先通过SQL查询得到一个结果集，然后导入的数据就是该结果集内的数据，格式如：`--boundary-query 'select id,no from t where id = 3'`，表示导入的数据为id=3的记录，或者 `select min(<split-by>), max(<split-by>) from <table name>`，注意查询的字段中不能有数据类型为字符串的字段，否则会报错
`--columns<col,col>`	指定要导入的字段值，格式如：`--columns id,username`
`--direct`	直接导入模式，使用的是关系数据库自带的导入导出工具。官网上是说这样导入会更快
`--direct-split-size`	在使用上面direct直接导入的基础上，对导入的流按字节数分块，特别是使用直连模式从PostgreSQL导入数据的时候，可以将一个到达设定大小的文件分为几个独立的文件。
`--inline-lob-limit`	设定大对象数据类型的最大值
`-m,--num-mappers`	启动N个map来并行导入数据，默认是4个，最好不要将数字设置为高于集群的节点数
`--query，-e <sql>`	从查询结果中导入数据，该参数使用时必须指定`–target-dir`、`–hive-table`，在查询语句中一定要有where条件且在where条件中需要包含 `\$CONDITIONS`，示例：`--query 'select * from t where \$CONDITIONS ' --target-dir /tmp/t –hive-table t`
`--split-by <column>`	表的列名，用来切分工作单元，一般后面跟主键ID
`--table <table-name>`	关系数据库表名，数据从该表中获取
`--delete-target-dir`	删除目标目录
`--target-dir <dir>`	指定hdfs路径
`--warehouse-dir <dir>`	与 `--target-dir` 不能同时使用，指定数据导入的存放目录，适用于hdfs导入，不适合导入hive目录
`--where`	从关系数据库导入数据时的查询条件，示例：`--where "id = 2"`
`-z,--compress`	压缩参数，默认情况下数据是没被压缩的，通过该参数可以使用gzip压缩算法对数据进行压缩，适用于SequenceFile, text文本文件, 和Avro文件
`--compression-codec`	Hadoop压缩编码，默认是gzip
`--null-string <null-string>`	可选参数，如果没有指定，则字符串null将被使用
`--null-non-string <null-string>`	可选参数，如果没有指定，则字符串null将被使用\|

参数	说明
`--enclosed-by <char>`	给字段值前后加上指定的字符，比如双引号，示例：`--enclosed-by '\"'`，显示例子："3","jimsss","dd@dd.com"
`--escaped-by <char>`	给双引号作转义处理，如字段值为"测试"，经过 `--escaped-by "\\"` 处理后，在hdfs中的显示值为：`\"测试\"`，对单引号无效
`--fields-terminated-by <char>`	设定每个字段是以什么符号作为结束的，默认是逗号，也可以改为其它符号，如句号`.`，示例如：`--fields-terminated-by`
`--lines-terminated-by <char>`	设定每条记录行之间的分隔符，默认是换行串，但也可以设定自己所需要的字符串，示例如：`--lines-terminated-by "#"` 以#号分隔
`--mysql-delimiters`	Mysql默认的分隔符设置，字段之间以`,`隔开，行之间以换行`\n`隔开，默认转义符号是`\`，字段值以单引号`'`包含起来。
`--optionally-enclosed-by <char>`	enclosed-by是强制给每个字段值前后都加上指定的符号，而`--optionally-enclosed-by`只是给带有双引号或单引号的字段值加上指定的符号，故叫可选的

参数	说明
`--hive-home <dir>`	Hive的安装目录，可以通过该参数覆盖掉默认的hive目录
`--hive-overwrite`	覆盖掉在hive表中已经存在的数据
`--create-hive-table`	默认是false，如果目标表已经存在了，那么创建任务会失败
`--hive-table`	后面接要创建的hive表
`--table`	指定关系数据库表名

参数	说明
`--check-column (col)`	用来作为判断的列名，如id
`--incremental (mode)`	append：追加，比如对大于last-value指定的值之后的记录进行追加导入。lastmodified：最后的修改时间，追加last-value指定的日期之后的记录
`--last-value (value)`	指定自从上次导入后列的最大值（大于该指定的值），也可以自己设定某一值