前言
随着业务和大数据技术的发展,越来越多的公司需要在后端架设Hbase数据库,而原有的业务则需要从各种RDBMS数据库中迁移到Hbase当中。Appach的sqoop(发音:[skup])就是基于这样的需求而诞生的,本文详细记录了一个通过sqoop将数据从postgresql迁移到Hbase的例子。
前期准备和假设
要完成数据的迁移,那前期毋庸置疑,目的集群上一定是已经安装好了:
- java
- hadoop
- habase
- ZoopKeeper
在我的例子中:
- java的版本是oracle 1.7.0.25.
- hadoop的版本是hadoop-2.7.3,10个机器的集群,2个namenode, 8个- datanode
- hbase的版本是hbase-1.3.0, 7个机器的集群,2个source manager(一个backup master), 6个HRegionServer
- zoopkepper的版本是zookeeper-3.4.8,7个节点
具体的集群安装,可以参考网上的各种文章。
这里需要注意的是,其实sqoop已经不支持最新版本的hbase了,但本文的操作至少是可以做的:
Sqoop does not support the latest versions of Hbase yet. The latest of Sqoop is compatible with versions of Hbase <= 0.95.2, there is an open issue (SQOOP-2759) for this hbase-sqoop integration.
sqoop的安装
下载:
http://mirrors.cnnic.cn/apache/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
安装
将sqoop解压到“/usr/lib/sqoop”目录.
$tar -xvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
# mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha /usr/lib/sqoop
配置
把sqoop相关的环境变量配置到 ~/.bashrc 文件:
export SQOOP_HOME=/usr/lib/sqoop
export PATH=$PATH:$SQOOP_HOME/bin
然后source ~/.bashrc 文件.
$ source ~/.bashrc
复制创建sqoop-env.sh
mv sqoop-env-template.sh sqoop-env.sh
修改 sqoop-env.sh 加入下面三行,根据集群情况填写
HADOOP_COMMON_HOME=/opt/hadoop-2.7.3/
HADOOP_MAPRED_HOME=/opt/hadoop-2.7.3/
HBASE_HOME=/opt/hbase-1.3.0
添加jar包
下载postgresql的jdbc驱动,并放置到sqoop的lib目录
Crl -L 'http://jdbc.postgresql.org/download/postgresql-9.2-1002.jdbc4.jar' -o postgresql-9.2-1002.jdbc4.jar
mv postgresql-9.2-1002.jdbc4.jar /usr/lib/sqoop/lib/
测试
进入sqoop的bin目录下执行命令
./sqoop-list-tables --connect jdbc:mysql://your_postgresql_address:port/your_db_name --username mysqlusername --P
然后提示输入密码,输入数据库登录密码即可。然后终端显示该数据库下的所有表名称。表示Sqoop安装成功
使用sqoop导入postgresql的数据
现在我的postgresql里面有多张表:
假设准备导入aswu_operation这张表。因为sqoop不支持最新版的hbase,因此必须手动的在Hbase里面创建一张表来存储postgresql里的aswu_operation表。这里,仍然采用aswu_operation作为表名:
hbase(main):002:0> create 'aswu_operation' 'Op_info'
然后执行sqoop的import命令。
sqoop import --connect jdbc:postgresql://10.141.47.194/aswudb --table aswu_operation --hbase-table aswu_operation --column-family Op_info