最近因为工作需要开始接触hive和mysql的数据加载,其中hive向mysql存储数据时,因为hive 表的格式可能导致错误。下面讲下这个问题。
错误情况
运行sqoop语句,将hive数据导入mysql。
sqoop export --connect jdbc:mysql://1.1.1.1:3306/database --username root --password 123456 --table test_tmp --export-dir /apps/hive/warehouse/test_db/tmp_test --input-null-string '\N' --input-null-non-string '\N' --input-fields-terminated-by '\t'
执行后发现任务失败,查询日志如下:
2019-09-06 16:04:36,983 INFO [IPC Server handler 8 on 44004] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Diagnostics report from attempt_1565257243596_0714_m_000001_0: Error: java.io.IOException: Can't export data, please check failed map task logs
at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:122)
at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:39)
at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:146)
at org.apache.sqoop.mapreduce.AutoProgressMapper.run(AutoProgressMapper.java:64)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:787)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:170)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:422)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1866)
at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:164)
Caused by: java.lang.RuntimeException: Can't parse input data: '>xhX@�'
at pdm_runway_list_tmp.__loadFromFields(pdm_runway_list_tmp.java:2472)
at pdm_runway_list_tmp.parse(pdm_runway_list_tmp.java:2190)
at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:89)
... 10 more
Caused by: java.lang.NumberFormatException: For input string: ">xhX@�"
at java.lang.NumberFormatException.forInputString(NumberFormatException.java:65)
at java.lang.Integer.parseInt(Integer.java:580)
at java.lang.Integer.valueOf(Integer.java:766)
at pdm_runway_list_tmp.__loadFromFields(pdm_runway_list_tmp.java:2259)
... 12 more
分析
首先谷歌该异常,认为需要添加 --input-fields-terminated-by '\t',但我已经添加该设置。
但检查数据 发现并没有乱码的数据 >xhX@�
最后查看建表语句,发现有如下设置,应该时压缩和间隔对数据产生转移产生影响。
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n'
STORED AS ORC
TBLPROPERTIES ("orc.compress"="SNAPPY")
;
解决
尝试用没有该项设置的新表存储转移数据,成功导出。
思考
发现建表时候设置会对导出数据产生影响(尤其时分隔符),而且之后的导出设置可能对这种表结构不起作用。而转移到临时表不失为一种好的方法。