通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据

转载 2016年08月28日 16:45:32
下文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互导最后给出命令。
一、Mysql与HDFS互导数据

环境:

宿主机器操作系统为Win7,Mysql安装在宿主机上,宿主机地址为192.168.66.96
3台虚拟机操作系统为Ubuntu-12.04.1-32位
三台虚拟机已成功安装Hadoop,并实现免密钥互访,配hosts为:
192.168.66.91 masternode
192.168.66.92 slavenode1
192.168.66.93 slavenode2
/etc/profile已配置好必备环境变量HADOOP_HOME,JAVA_HOME
实验在masternode上进行,已成功连接mysql
 
步骤一,下载安装包:
我安装的Hadoop版本是原生hadoop-0.20.203.0,SQOOP不支持此版本,可使用CDH3版本hadoop,也可以通过拷贝相应的包到sqoop-1.2.0-CDH3B4/lib下,依然可以使用。
下载相关文件:
http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gz
http://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gz
sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar,所以你需要下载hadoop- 0.20.2-CDH3B4.tar.gz,解压缩后将hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2- CDH3B4.jar复制到sqoop-1.2.0-CDH3B4/lib中。
另外,sqoop导入mysql数据运行过程中依赖mysql-connector-java-*.jar,所以你需要下载mysql-connector-java-*.jar并复制到sqoop-1.2.0-CDH3B4/lib中。
 
步骤二,相关配置:
修改SQOOP的文件configure-sqoop,注释掉hbase和zookeeper检查(除非你准备使用HABASE等HADOOP上的组件) #if [ ! -d "${HBASE_HOME}" ]; then
# echo “Error: $HBASE_HOME does not exist!”
# echo ‘Please set $HBASE_HOME to the root of your HBase installation.’
# exit 1
#fi
#if [ ! -d "${ZOOKEEPER_HOME}" ]; then
# echo “Error: $ZOOKEEPER_HOME does not exist!”
# echo ‘Please set $ZOOKEEPER_HOME to the root of your ZooKeeper installation.’
# exit 1
#fi
 
修改/etc/profile环境变量文件(su root之后,sudo gedit /etc/profile):
添加 export SQOOP_HOME=/home/grid/sqoop
在原有PATH后添加 :$SQOOP_HOME/bin
 
步骤三,在mysql中建立测试用户,测试表和数据,并测试sqoop连接mysql:
创建用户sqoop并授权:
grant all privileges on *.* to 'sqoop'@'%' identified by 'sqoop' with grant option;
 
创建表空间(schema)sqoop,并创建测试表:
create table students (
id int not null primary key,
name varchar(20),
age int)
 
插入测试数据:
insert into students values('10001','liyang',29);
insert into students values('10002','lion',28);
insert into students values('10003','leon',26);
 
在masternode测试sqoop能否成功连接宿主机器上的mysql:
sqoop list-tables --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop
如果能正确显示出sqoop表空间中的students表,就说明sqoop已经可以成功连接mysql!
 
步骤四,将mysql中sqoop表空间的students表的三行数据导入HDFS:
启动hadoop
start-all.sh
用jps验证启动是否成功
显示正在运行以下进程即为启动成功:
2820 SecondaryNameNode
4539 Jps
2887 JobTracker
2595 NameNode
 
从mysql导入数据,运行如下命令
sqoop import --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop --table students -m 1
 
验证导入数据是否成功:
若导入成功,运行 hadoop dfs -ls 将能看到根目录/user/grid/下有以表名命名的文件夹students
运行 hadoop dfs -ls /user/grid/students 能看到该文件夹中包含文件:/user/grid/students/part-m-00000
运行 hadoop dfs -cat /user/grid/students/part-m-00000 就能看到该文件已经包含mysql中students表的三行数据:
10001,liyang,29
10002,lion,28
10003,leon,26
 
步骤五,将HDFS中的数据导入Mysql的students表中:
首先将mysql的students表数据清空:
delete from students;
 
然后在masternode上执行导出数据命令:
sqoop export --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop --table students --export-dir hdfs://masternode:9000/user/grid/students/part-m-00000
 
若成功,在mysql中会看到students表中的数据恢复了!
 
注意过程中可能会因为slavenode的50010端口没打开而报错,需用root用户通过sudo ufw allow 50010命令打开端口!
 
二、Mysql与Hbase互导数据
将mysql的数据导入hbase的命令格式为:
sqoop import --connect jdbc:mysql://mysqlserver_IP/databaseName --username --password password --table datatable --hbase-create-table --hbase-table hbase_tablename --column-family col_fam_name --hbase-row-key key_col_name
其中 ,databaseName 和datatable 是mysql的数据库和表名,hbase_tablename是要导成hbase的表名,key_col_name可以指定datatable中哪一列作为hbase新表的rowkey,col_fam_name是除rowkey之外的所有列的列族名
 
例如:可通过如下命令将Mysql中的students表导入到Hbase中:
/home/grid/sqoop/bin/sqoop import --connect jdbc:mysql://192.168.66.96/sqoop --username sqoop --password liyang16 --table students --hbase-create-table --hbase-table students --column-family stuinfo --hbase-row-key id
成功执行后,可在hbase中用以下命令查看结果:
hbase(main):011:0> scan 'students'
ROW COLUMN+CELL
10001 column=stuinfo:age, timestamp=1356759994058, value=29
10001 column=stuinfo:name, timestamp=1356759994058, value=liyang
10002 column=stuinfo:age, timestamp=1356760044478, value=28
10002 column=stuinfo:name, timestamp=1356760044478, value=lion
10003 column=stuinfo:age, timestamp=1356760044478, value=26
10003 column=stuinfo:name, timestamp=1356760044478, value=leon
3 row(s) in 0.0900 seconds
 
三、Oracle与Hbase互导数据
将Oracle中的dept表(列为id,name,addr)导出至hbase中的dept表(行键为id,列族为deptinfo)
sqoop import --append --connect jdbc:oracle:thin:@192.168.66.90:1521:orcl --username test --password test --m 1 --table dept --columns id,name,addr --hbase-create-table --hbase-table dept --hbase-row-key id --column-family deptinfo
 
-------------------------------------------------------------------------------------
注:以上所有命令均实测通过,只需修改参数即可执行!

sqoop实现Mysql、Oracle与hdfs之间数据的互导

通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据 SQOOP的描述 SQOOP是用于对数据进行导入导出的。     (1)把MySQL、Oracle等数据库中的数据导...
  • zwx19921215
  • zwx19921215
  • 2014年12月09日 10:54
  • 8834

大数据案例——Hive、MySQL、HBase数据互导

本文是基于教程大数据案例——本地文件上传hive数据库,对数据在Hive,MySQL,HBase之间的互导进行进阶版的学习。数据集:淘宝用户点击商品操作数据集,共30万条记录。如果没有安装MySQL,...
  • Flyfish111222
  • Flyfish111222
  • 2016年11月16日 16:40
  • 2404

使用sqoop1导出mysql数据到hbase中

安装配置cdh5.03版sqoop2-1.99.3导入数据 1.下载sqoop2:http://www.cloudera.com/content/support/en/downloads/cdh/c...
  • huoyunshen88
  • huoyunshen88
  • 2014年07月18日 12:54
  • 2695

使用sqoop将mysql数据导入到hdfs

一、安装测试前准备 1:安装集群:如下 2:sqoop版本和hadoop版本 3:mysql 连接器 和 测试数据 如下: ...
  • LIHUINIHAO
  • LIHUINIHAO
  • 2013年11月29日 10:17
  • 1027

使用sqoop做桥梁实现oracle和hdfs之前数据互导(问题和心得)

首先:版本号 sqoop1.99.6 (也就是sqoop2) hadoop2.6.0 。。。。 之前说过了hadoop的安装和配置。在这就不多说了。 sqoop的安装和配置我也是照的...
  • q12344566789
  • q12344566789
  • 2016年04月21日 16:58
  • 2225

从hdfs批量导出数据到hbase表中

将hdfs中的日志数据导入到hbase中。 打成jar包在服务器使用 hadoop jar xxx.jar 包名.类名            运行 需要将hbase类库加到hadoop的...
  • yinhaonefu
  • yinhaonefu
  • 2015年06月22日 14:30
  • 1029

sqoop从hbase导出数据到mysql

使用sqoop从hbase导出数据到mysql
  • zgc_sitech
  • zgc_sitech
  • 2016年06月02日 13:29
  • 3512

Sqoop学习笔记 --- 增量导入数据到HBase

Sqoop学习笔记 --- 增量导入数据到HBase
  • u012965373
  • u012965373
  • 2016年11月16日 10:02
  • 1483

用sqoop将oracle数据导入Hbase

一、简介及部分重要参数介绍         Sqoop除了能够将数据从关系型数据库导入到HDFS和Hive中,还能够导入到HBase表中。        --hbase-table:通过指定--hb...
  • u010842515
  • u010842515
  • 2016年05月05日 09:34
  • 4805

sqoop从mysql导入hdfs数据过程遇到的问题

mysql导入hdfs的过程
  • snowpay
  • snowpay
  • 2017年04月10日 20:26
  • 1029
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据
举报原因:
原因补充:

(最多只允许输入30个字)