通过Sqoop将关系型数据库数据到Hive有两种方式,一种是Sqoop API,一种是使用HCatalog API。两种方式略有不同,各有优缺点,这里主要介绍两者的区别与共同点。
Sqoop方式
Sqoop方式基本的命令如下:
sqoop import \
--hive-import \
--connect 'jdbc:mysql://localhost:3306/test' \
--username 'root' \
--password '123456789' \
--query " select order_no from driver_action where \$CONDITIONS" \
--hive-database test \
--hive-table driver_action \
--hive-partition-key pt \
--hive-partition-value 20190901 \
--null-string '' \
--null-non-string '' \
--num-mappers 1 \
--target-dir /tmp/test \
--delete-target-dir
通过–query选项中"where $CONDITIONS"是必须带,否者会报错,如下:
19/08/30 11:02:24 ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Query [SELECT * FROM t_passenger ] must contain '$CONDITIONS' in WHERE clause.
at org.apache.sqoop.manager.ConnMana