sqoop操作之ETL小案例

Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。
将数据从ORACLE中抽取数据,经过hive进行分析转换,最后存放到ORACLE中去。

 

本案例是纯demo级别,练手使用

一、需求
将emp和dept表的数据分析最后存放到result表。

emp和dept表均为oracle自带的表,表结构如下:

emp表

EMPNONUMBER(4)
ENAMEVARCHAR2(10)
JOBVARCHAR2(9)
MGRNUMBER(4)
HIREDATEDATE
SALNUMBER(7,2)
COMMNUMBER(7,2)
DEPTNONUMBER(2)

 

 

 

 

 

 

 

dept表

DEPTNONUMBER(2)
DNAMEVARCHAR2(14)
LOCVARCHAR2(13)

 

 

 

result表

EMPNO员工号
ENAME员工姓名
COMMN津贴
DNAME部门号

 

 

 

 

二、数据准备

创建hive表

create table emp_etl(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int
)
row format delimited fields terminated by '\t' lines terminated by '\n' 
stored as textfile;

create table dept_etl( deptno int, dname string, loc string ) row format delimited fields terminated by '\t' lines terminated by '\n' stored as textfile; create table tmp_result_etl( empno int, ename string, comm double, dname string ) row format delimited fields terminated by '\t' lines terminated by '\n' stored as textfile;

create table result_etl( empno int, ename string, comm double, dname string ) row format delimited fields terminated by '\t' lines terminated by '\n' stored as textfile;

 

导入hive数据

sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521/ORCL \
--username SCOTT --password TIGER \
--table EMP \
--hive-overwrite --hive-import  --hive-table emp_etl  \
--null-string '' --null-non-string '0' \
--fields-terminated-by '\t' --lines-terminated-by '\n' -m 3;


sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521/ORCL \ --username SCOTT --password TIGER \ --table DEPT \ --hive-overwrite --hive-import --hive-table dept_etl \ --null-string '' --null-non-string '0' \ --fields-terminated-by '\t' --lines-terminated-by '\n' -m 3;

 

三、实现方式

在hive中分析处理,将结果导出到HDFS中,再使用SQOOP将HDFS结果导入到数据库。
1)抽取:ORACLE数据抽取到HIVE。参见前面两步。
2)转换:将查询结果插入到hive表中

INSERT OVERWRITE TABLE result_etl 
select a.empno, a.ename, a.comm, b.dname FROM emp_etl a join dept_etl b on (a.deptno = b.deptno);

3)转换:将数据导入到HDFS文件系统中

INSERT OVERWRITE DIRECTORY 'RESULT_ETL_HIVE' SELECT * from result_etl;

4)加载:将HDFS系统中的数据加载到ORACLE中(结果表需要手工创建)

创建ORACLE表用于存放ETL结果

CREATE TABLE RESULT_ETL2(
empno INT,
ename VARCHAR(10),
COMM DOUBLE,
dname VARCHAR(14)
);

 

sqoop export --connect jdbc:oracle:thin:@192.168.1.107:1521/ORCL \
--username SCOTT --password TIGER \
--table RESULT_ETL2 \
--export-dir /user/hadoop/RESULT_ETL_HIVE \
--fields-terminated-by '\001' \
-m 2;

 

 

或者将所有的脚本(除ORACLE创建表外)放到shell文件中,一并执行

#!/bin/sh                                                                                               
. /etc/profile                                          
set -x                                             
                                                  
hql="INSERT OVERWRITE TABLE result_etl            
select a.empno, a.ename, a.comm, b.dname FROM emp_etl a join dept_etl b on (a.deptno = b.deptno) "                                                      
hive -e "$hql"                                         
                                                       
sqoop export --connect jdbc:oracle:thin:@192.168.1.107:1521/ORCL \
--username SCOTT --password TIGER \
--table RESULT_ETL2  \
--export-dir /user/hadoop/RESULT_ETL_HIVE \
--fields-terminated-by '\001'  \
-m 2;

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值