hive源数据通过sqoop数据集成工具导入到mysql报:ERROR tool.ExportTool: Error during export
报错信息如下:
在yarn上查看作业报错信息:
1.进入yarn web登录界面查看作业运行情况:
2、点击作业,查看运行日志
–继续点击
–点击here,查看作业完整运行日志,找到报错信息:
3、查看报错信息,发现是字符格式问题,我sqoop的shell命令是这样的:
sqoop export
--connect "jdbc:mysql://master:3306/new_crown??useUnicode=true&characterEncoding=utf-8"
--username root
--password 123456
--table app_national_area
--export-dir /opt/data/hive/warehouse/app_national_area
--input-fields-terminated-by ","
这里的错误就是经典的hive和mysql的表结构不对应,有可能你的实际情况和我不一样,但是按照这个思路去检查会很轻松找到你的问题根源。
这个问题是sqoop把你的数据往mysql中塞的时候格式不符,他就会返回这个错误。处理方式首先就应该检查两个表结构是否一致。
hive表结构查询
desc [表名];
在检查后我发现两个表结构是完全一致的,也有可能是hive的分隔符弄错了(–input-fields-terminated-by ‘,’),检查后也没有问题,hive中确实使用建表的’,’作为分隔符,那为什么会报错嘞?
除了hive表结构之外,我们再检查一下hive的数据,在hdfs/user/hive/warehouse/co中,可以在linux中hadoop fs -cat /user/hive/warehouse/co查看,为了方便我这里选择在windows中下载查看。
数据节选
201501122002A,105
我的数据除了前两条是string,后面都是double类型。
可以看到分隔符确实是",“,但是double数据中有一个突兀的”\N"。原来是因为hive中的null值默认是按照字符串"\N"存储的,所以在获取数据时出现字符串"\N",而"\N"是字符串格式不符合double类型导致报错。
这里有两种处理方法,一种是将表结构统一改成varchar类型,但是这样"\N"就按照字符串存入了,不方便处理。所以加上两条参数–input-null-string和–input-null-non-string,在sqoop遇到"\N"后按照null进行插入处理。
修改后的sqoop命令:
sqoop export
--connect "jdbc:mysql://master:3306/new_crown??useUnicode=true&characterEncoding=utf-8"
--username root
--password 123456
--table app_national_area
--export-dir /opt/data/hive/warehouse/app_national_area
--input-fields-terminated-by ","
--input-null-string '\\N'
--input-null-non-string '\\N'
最后结果:解决问题