搭建hadoop环境遇到一个大坑:hadoop技术栈版本不匹配问题。
搭建完hive后,和hdfs之间单独运行测试没有问题。搭建完sqoop后,sqoop和hdfs配合使用也没问题。
三者共同使用,执行以下命令,将mysql中的表导入到hive中:
sqoop import --connect 'jdbc:mysql://192.168.174.131:3306/ecp?useUnicode=true&characterEncoding=utf-8' --username root --password 123456 --table ecp_user -m 2 --hive-import
结果报错:
ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Hive exited with status 1
担心配置出现了问题,照着不同教程重新安装了hive、sqoop,还是无解。
度娘、谷歌搜索出来的答案只有一个,提示sqoop下lib文件夹中的libthrift-*.jar和hive下lib文件夹中的libthrift-*.jar版本不一致,将hive中的libthrift-0.9.3.jar文件copy到sqoop下lib文件夹,重新执行,依然报错。
最后怀疑是版本问题,sqoop一直用的1.4.7,最开始hive2.3.2和mysql-connector-java-5.1.46-bin.jar,报错;改成hive2.2.0和mysql-connector-java-5.1.46-bin.jar,报错;改成hive2.2.0和mysql-connector-java-5.1.39-bin.jar,报错;改成hive2.1.1和mysql-connector-java-5.1.39-bin.jar,成功运行。
希望给后来人减少点时间花费在搭环境上