用sqoop导入数据到hive中

本文介绍了如何使用sqoop-1.2.0将数据从MySQL和PostgreSQL导入到Hive。首先,需要配置sqoop的lib目录,添加必要的jar包。接着,通过指定连接参数和表格名称,使用sqoop的import命令进行数据导入。对于PostgreSQL的大表导入,可能会遇到内存溢出问题,解决方案是升级到sqoop1.3及以上版本。然而,这样做可能引入新的问题,如与CDH3的Hadoop版本不兼容,导致ClassNotFoundException。最终,通过降级Hadoop版本和使用sqoop1.4解决了问题。
摘要由CSDN通过智能技术生成

1 安装sqoop  

   下载sqoop-1.2.0.tar.gz(1.20版兼容hadoop0.20版本)

   将 hadoop-core-0.20.2-cdh3u3.jar ,hadoop-tools-0.20.2-cdh3u3.jar 放入sqoop/lib目录下,这两个jar包是cloudera公司出的 ,可以去它的官网下载。


2 从mysql中导入数据

   进入sqoop解压目录(需要将mysql-connector-java-5.1.17-bin.jar加入到sqoop/lib目录下)

   bin/sqoop import --connect jdbc:mysql://IP:PORT/DATABASE --username USERNAME --password PASSWORD --table TABLENAME --hive-import -m 1

   备注: -m 1 是启动多少个线程的意思,如果数据库没有主键 只能启动一个线程。

3 从postgresql中导入数据

   bin/sqoop import --connect jdbc:postgresql://IP:PORT/DATABASE --username USERNAME --password PASSWORD --table TABLENAME --hive-import -m 1


4常见问题:

   1 从postgresql中导入大表到hive中会出现jvm内存溢出的错误,这是sqoop1.2及以前版本的一个bug,它把整个数据表记录读入内存,导致内存溢出,解决办法是换sqoop1.3及以上版本,这个bug在1.3被修复,但是sqoop1.3 必须依赖chd3的hadoop版本,如果以前装的的纯hadoop版本的话只能换成chd3的版本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值