昨天尝试使用Sqoop从PostgreSQL向Hive中迁移数据,过程中遇到两个问题,在此记录一下,以备以后遇到类似问题可以快速找到解决方案。
问题1:当PostgreSQL表中有json类型时Sqoop命令报以下错误
No Java type for SQL type 1111 for
column voting_info
解决方案:sqoop命令中添加以下类型映射
--map-column-hive voting_info=String --map-column-java voting_info=String
问题2:如何指定PostgreSQL中指定schema名称
PostgreSQL中的对象属于三层模型,即database->schema->table。PostgreSQL中一般包含多个database,每个database包含多个schema,schema下包含多个表。因此使用sqoop抽取数据时有时需要指定表是属于哪个schema。
解决方案:sqoop命令中添加以下类型映射
-- --schema szyd
下面给出一个常用的从PostgreSQL往Hive导数据的sqoop-import脚本,仅供参考:
sqoop-import --connect jdbc:postgresql://$PG_HOST:$PG_PORT/$PG_SID \
--username $PG_UNAME --password $PG_PWD --table $TABLE_NAME \
--hive-import --hive-table $TABLE_NAME --hive-overwrite \
--null-string '\\N' --null-non-string '\\N' --hive-drop-import-delims \
-m 1 --map-column-hive voting_info=String --map-column-java voting_info=String -- --schema $SCHEMA_NAME