前面的废话:
准备换工作了,开始整理这份工作中的笔记。使用sqoop的契机是公司有从hdfs往oracle导数据的需求,于是本白板小号硬着头皮网上搜寻了一圈,找到了sqoop,赶时间就没有细究官方文档了,好在网上资料不少,我要求也不高,最后总算是成功了,特此记录,以供自己以后温习。
这次只是导出数据,所以对sqoop的研究很浅,之后有所获再继续补充。
开发环境:
1.centos 6.2
2.sqoop 1.4.4 (注意这个版本和hadoop版本有关,具体对应关系官网有写)
3.oralce/sql server/mysql等等等数据库的jdbc驱动
其实本来是下载的1.4.5,结果不知道是幸运还是不幸,1.4.5正好有bug,google了一番无果,尝试换成1.4.4问题就解决了。
需求:
把一张有分区的hive表的部分列导入oracle
1.安装
普通地解压安装包
普通地在~/.bash_profile(root用户)或~/.profile或/etc/profile(所有用户)改一下SQOOP_HOME环境变量
普通地把jdbc驱动复制到sqoop的lib文件夹下
普通地重命名sqoop-env-template.sh为sqoop-env.sh
普通地按照http://www.superwu.cn/2013/08/12/444/的参数改sqoop-site.xml文件
2.导入数据到oracle
装成功以后开始导入数据,按照