Sqoop 配置文档
安装环境ubuntu14.04 64位 hadoop2.6 jdk 1.7.0_79 sqoop-1.99.6-bin-hadoop200
Sqopp介绍:
Sqoop 学习笔记
1.sqoop 介绍
1)多数是用hadoop技术处理大数据业务的企业有大量的数据存储在rdbms中。
2)基于历史数据的数据分析,利用大数据的平台来进行处理。
3)因此需要将关系型数据库中的数据迁移到hadoop(hive和hbase)中,将hadoop分析出来的数据可能要在倒回到关系型数据库中。利用mapreduce加快数据传输速度。Etl 批处理方式进行数据传输。
4)Sqoop:sql-to-hadoop
5)选择的优势:高效的,可控的利用资源譬如任务的并行度,超时的时间。
数据类型映射与转换,可自动进行,也可以用户定义。
支持多种的数据库
6)版本sqoop1和sqoop2
a) 两个不同的版本,完全的不兼容
b) 版本号划分:apache:1.4.x~,1.99.x~ ;DCH:sqoop-1.4.3-cdh4,sqoop2-1.99.2-cdh4.5.0/
7)sqoop2比sqoop1的改进
a) 引入sqoopserver,集中化的管理connector(连接不同关系型数据库的连接器)等
b) 引入多种的访问方式:CLI(command line interface),Wen UI (浏览器中的数据导入到出),REST API(支持多语言的使用)
c) 引入级角色的安全机制
在上述的架构中:
1)基于命令行的:编程容易出错,譬如敲错命令,而且不安全
2)数据传输和数据格式是紧耦合的,这使得connector无法支持所有的数据格式。
3)按群密钥是暴露出来的,非常不安全传统数据库的用户名和密码
4)sqoop 安装需要root权限
5)Connector 必须符合jdbc模,并且使用通用的jdbc词汇 比如URL,database table
配置:
首先在你需要安装的sqoop的节点上确认安装好hadoop,本文的版本是基于hadoop2兼容的sqoop1.99.6版本配置。
1.下载sqoop-1.99.6,这个版本最新,可以与hadoop2.x.x兼容的更好
2.现在以后解压到相应的目录
tar zxvf sqoop-1.99.6-bin-hadoop200.tar.gz
3.配置环境变量,sudo vi /etc/profile进入profile文件,如下图
(最好在安装sqoop之前,把Hbase和Hive安装上)
添加几行代码:
PATH=添加$SQOOP_HOME/bin(可以看下图)
export SQOOP_HOME
export CATALINE_BASE=$SQOOP_HOME/server
export LOGDIR=$SQOOP_HOME/logs
完成之后退出到命令行界面,使用 source /etc/profile 更些profile配置文
4.配置${SQOOP_HOME}/server/conf/catalina.properties 文件,如下图
找到 commen.loader=下图修改后的代码,注意,路径要换成你自己的安装路径哦
=${catalina.base}/lib,${catalina.base}/lib/*.jar,${catalina.home}/lib,${catalina.home}/lib/*.jar,${catalina.home}/../lib/*.jar,/home/likai/hadoop-2.6.0/share/hadoop/common/*.jar,/home/likai/hadoop-2.6.0/share/hadoop/common/lib/*.jar,/home/likai/hadoop-2.6.0/share/hadoop/hdfs/*.jar,/home/likai/hadoop-2.6.0/share/hadoop/hdfs/lib/*.jar,/home/likai/hadoop-2.6.0/share/hadoop/mapreduce/*.jar,/home/likai/hadoop-2.6.0/share/hadoop/mapreduce/lib/*.jar,/home/likai/hadoop-2.6.0/share/hadoop/tools/*.jar,/home/likai/hadoop-2.6.0/tools/lib/*.jar,/home/likai/hadoop-2.6.0/share/hadoop/yarn/*.jar,/home/likai/hadoop-2.6.0/share/hadoop/yarn/lib/*.jar,/home/likai/hadoop-2.6.0/share/hadoop/httpfs/tomcat/lib/*.jar
5.配置${SQOOP_HOME}/server/conf/:wq
6.sqoop.properties 文件,如下图
找到下图的代码,把你hadoop的配置文件路径写上,一般为:${HADOOP_HOME}/
6.把mysql的驱动包mysql-connector-java-5.1.16-bin.jar放到${SQOOP_HOME}/server/lib/里面扯得
此时sqoop的配置基本上已经结束:下面就开始测试是否安装成功!
先启动hadoop,再启动sqojpsp,如下图:
启动sqoop的客户端
查看错误日志:
set option --name verbose --value true
set server --host hadoop000 --port 12000 --webapp sqoop
入门程序:http://sqoop.apache.org/docs/1.99.6/Sqoop5MinutesDemo.html