第十一章目录
第十一章 Sqoop
sqoop本质是一款使用MR进行数据迁移的工具。
目前业界普遍用1.4.6版本,该版本与CDH集成。
hive对外的一个统一存储格式的接口,使用hcatalog对接到hive的数据不需要担心数据在hive中的存储格式和存储位置。sqoop在1.4.4版本后集成了HCatalog
11.1 sqoop导入数据到hive
11.1.1 sqoop+hcatalog
#使用建表的方式增量导入hive orc;
#如果已经使用hcatalog,则hive-import系列的指定全都不能用,否则报错;
和--hcatalog-storage-stanza,存储格式和压缩格式会自动对齐hive表的配置
sqoop import
--connect jdbc:mysql://127.0.0.1:3306/test
--username your_user_name --password 123456
--table table_name --driver com.mysql.jdbc.Driver
#用sql语句只支持简单查询,使用子查询或连接查询可能查出错误结果;如果指定-split by,必须使用$CONDITIONS关键字,双引号的查询语句还要加\
--query "SELECT a.*, b.* FROM a JOIN b on (a.id == b.id) WHERE \$CONDITIONS" \
#hcatalog