CDH 安装 sqoop
技术背景
需要将 mssqlserver 的数据批量导入hive,与hive中加载的用户行为数据进行联合分析,因为数据量较大,不再采用之前的python读取文本进行清洗,然后使用 LOAD DATA LOCAL INPATH 的方式。
正好使用的CDH集群可以简单添加sqoop服务,于是尝试了下。
首先决定使用sqoop2(1.9.5版本),CLI界面很友好,但是并不是那么便捷,尝试了几次都没有成功,果断放弃转战sqoop1.4.6。
一样在CDH管理界面首先进行添加scoop服务,很快就完成了,然后开始步入正题。
安装位置
因为要从 mssqlserver 导入数据,所以要先找到scoop的安装位置,用了几次 which就找到了
HOME 位于 /opt/cloudera/parcels/CDH-5.12.1-1.cdh5.12.1.p0.3/lib/sqoop/
然后去官网下载 mssqlserver的 JDBC驱动
解压后放到 sqoop home 的 lib 文件夹下
使用脚本
- 测试连接
sqoop