1、hdfs文件的权限问题
问题分析与解决:
根据报错信息是hdfs文件的权限问题,命令进入集群执行的用户为null,而hdfs文件所有者为hdfs。
要么以用户hdfs执行命令,要么调整hdfs文件的权限,因为我只是使用hdfs文件的其中之一,暂时考虑:以hdfs用户执行命令。
在~/.bash_profile文件增加:
export HADOOP_USER_NAME=hdfs
2、文件格式问题
hive sequencefile导入文件遇到FAILED: SemanticException Unable to load data to destination table. Error: The file that you are trying to load does not match the file format of the destination table.错误
原因
这是因为SequenceFile的表不能使用load来加载数据,只能导入sequence类型的数据
解决办法
- 先创建一个临时表(save as textfile),将数据导入进去,
- 然后再导入这个表里 insert into table test_sq select * from test_tex
3、错误:ERROR tool.ImportTool: Error during import: No primary key could be found for table TRANS_GJJY02. Please specify one with --split-by or perform a sequential import with '-m 1'.
根据错误提示我们可以知道这是因为表中的数据没有设置主键。而针对这个问题有两种杰解决方案:
方案一:老老实实地在表中设置主键,然后再执行这个导入语句,就不会出错。
方案二:有些数据无法设置主键,比如很多的监测记录数据,找不到唯一值,针对这种数据,我们可以根据上面的错误提示通过以下两个方法来解决:
(1)将你的map个数设置为1(Sqoop默认是4)
-m 1
(2)使用--split-by,后面跟上表的最后一列名字。从而能够对数据进行分行 ,命令如下:
--split-by column1
这两种解决方法,推荐使用方法(2),因为方法(1)只用一个map,效率太低,相比较而言,方法(2)可以自己设置map个数,效率会高一些。
4、Output directory already exists错误
增加配置参数 --delete-target-dir \
5、ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Generating splits for a textual index column allowed only in case of "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" property passed as a parameter
Caused by: Generating splits for a textual index column allowed only in case of "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" property passed as a parameter
at org.apache.sqoop.mapreduce.db.TextSplitter.split(TextSplitter.java:67)
at org.apache.sqoop.mapreduce.db.DataDrivenDBInputFormat.getSplits(DataDrivenDBInputFormat.java:201)
... 23 more
解决方法:在sqoop import命令后加参数 -Dorg.apache.sqoop.splitter.allow_text_splitter=true
6、常用命令整理
参数 | 说明 |
---|---|
--append | 将数据追加到hdfs中已经存在的dataset中。使用该参数,sqoop将把数据先导入到一个临时目录中,然后重新给文件命名到一个正式的目录中,以避免和该目录中已存在的文件重名。 |
--as-avrodatafile | 将数据导入到一个Avro数据文件中| |
--as-sequencefile | 将数据导入到一个sequence文件中 |
--as-textfile | 将数据导入到一个普通文本文件中,生成该文本文件后,可以在hive中通过sql语句查询出结果。 |
--boundary-query <statement> | 边界查询,也就是在导入前先通过SQL查询得到一个结果集,然后导入的数据就是该结果集内的数据,格式如:--boundary-query 'select id,no from t where id = 3' ,表示导入的数据为id=3的记录,或者 select min(<split-by>), max(<split-by>) from <table name> ,注意查询的字段中不能有数据类型为字符串的字段,否则会报错 |
--columns<col,col> | 指定要导入的字段值,格式如:--columns id,username |
--direct | 直接导入模式,使用的是关系数据库自带的导入导出工具。官网上是说这样导入会更快 |
--direct-split-size | 在使用上面direct直接导入的基础上,对导入的流按字节数分块,特别是使用直连模式从PostgreSQL导入数据的时候,可以将一个到达设定大小的文件分为几个独立的文件。 |
--inline-lob-limit | 设定大对象数据类型的最大值 |
-m,--num-mappers | 启动N个map来并行导入数据,默认是4个,最好不要将数字设置为高于集群的节点数 |
--query,-e <sql> | 从查询结果中导入数据,该参数使用时必须指定–target-dir 、–hive-table ,在查询语句中一定要有where条件且在where条件中需要包含 \$CONDITIONS ,示例:--query 'select * from t where \$CONDITIONS ' --target-dir /tmp/t –hive-table t |
--split-by <column> | 表的列名,用来切分工作单元,一般后面跟主键ID |
--table <table-name> | 关系数据库表名,数据从该表中获取 |
--delete-target-dir | 删除目标目录 |
--target-dir <dir> | 指定hdfs路径 |
--warehouse-dir <dir> | 与 --target-dir 不能同时使用,指定数据导入的存放目录,适用于hdfs导入,不适合导入hive目录 |
--where | 从关系数据库导入数据时的查询条件,示例:--where "id = 2" |
-z,--compress | 压缩参数,默认情况下数据是没被压缩的,通过该参数可以使用gzip压缩算法对数据进行压缩,适用于SequenceFile, text文本文件, 和Avro文件 |
--compression-codec | Hadoop压缩编码,默认是gzip |
--null-string <null-string> | 可选参数,如果没有指定,则字符串null将被使用 |
--null-non-string <null-string> | 可选参数,如果没有指定,则字符串null将被使用| |
参数 | 说明 |
---|---|
--enclosed-by <char> | 给字段值前后加上指定的字符,比如双引号,示例:--enclosed-by '\"' ,显示例子:"3","jimsss","dd@dd.com" |
--escaped-by <char> | 给双引号作转义处理,如字段值为"测试",经过 --escaped-by "\\" 处理后,在hdfs中的显示值为:\"测试\" ,对单引号无效 |
--fields-terminated-by <char> | 设定每个字段是以什么符号作为结束的,默认是逗号,也可以改为其它符号,如句号. ,示例如:--fields-terminated-by |
--lines-terminated-by <char> | 设定每条记录行之间的分隔符,默认是换行串,但也可以设定自己所需要的字符串,示例如:--lines-terminated-by "#" 以#号分隔 |
--mysql-delimiters | Mysql默认的分隔符设置,字段之间以, 隔开,行之间以换行\n 隔开,默认转义符号是\ ,字段值以单引号' 包含起来。 |
--optionally-enclosed-by <char> | enclosed-by是强制给每个字段值前后都加上指定的符号,而--optionally-enclosed-by 只是给带有双引号或单引号的字段值加上指定的符号,故叫可选的 |
参数 | 说明 |
---|---|
--hive-home <dir> | Hive的安装目录,可以通过该参数覆盖掉默认的hive目录 |
--hive-overwrite | 覆盖掉在hive表中已经存在的数据 |
--create-hive-table | 默认是false,如果目标表已经存在了,那么创建任务会失败 |
--hive-table | 后面接要创建的hive表 |
--table | 指定关系数据库表名 |
参数 | 说明 |
---|---|
--check-column (col) | 用来作为判断的列名,如id |
--incremental (mode) | append:追加,比如对大于last-value指定的值之后的记录进行追加导入。lastmodified:最后的修改时间,追加last-value指定的日期之后的记录 |
--last-value (value) | 指定自从上次导入后列的最大值(大于该指定的值),也可以自己设定某一值 |