sqoop
HDFS HIVE HBASE ----> RDBMS
hadoop(hdfs)是RDMS(关系型数据库)之间的桥梁,主要的作用就是在hdfs和rdms之间导入导出数据
flume:文件库收集框架(主要收集业务系统的操作日志)
oozie:任务调度框架(主要用来执行有规律的重复的shell里面的job)
hue:协作框架的整合,监控
kafka:负责集群的协作负载,以及命名服务等
之前使用的都是Apache版本的软件
sqoop1和sqoop2
sqoop1和sqoop2完全不兼容
Sqoop2比Sqoop1的改进
引入sqoop server,集中化管理Connector等
多种访问方式:CLI,Web UI,REST API
引入基于角色的安全机制
sqoop导入导出的基准点是hdfs
如果是往hdfs写数据(包括hive),就是导入;
如果是往hdfs读出数据(包括hive),就是导出;
操作关键点
链接数据库
url:端口号/数据库,用户名,密码
||
sqoop=> import export
||
hdfs
path
hive
tablename
CDH版本软件安装
安装cdh版本的hadoop
解决了大数据Hadoop 2.x生态系统中各个框架的版本兼容问题
hadoop和sqoop之间的协作
连接传统关系型数据库和Hadoop的桥梁
把关系型数据库的数据导入到Hadoop与其相关的系统(HBase和Hive)中
把数据从Hadoop系统里抽取并导出到关系型数据库里
利用hadoop的hdfs传递存储数据,mapreduce批量处理数据
yarn资源调度
第一步:安装hadoop
1.创建一个cdh5.3.6目录
mkdir /opt/cdh5.3.6
2.安装 hadoop
$ tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz -C /opt/cdh5.3.6/
3.配置环境文件
hadoop-env.sh yarn-env.sh mapred-env.sh
export JAVA_HOME=/opt/modules/jdk1.7.0_67
4.配置文件
core-site.xml文件
<!-- 指明了namenode的地址,端口号:8020 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://nicole02.com.cn:8020</value>
</property>
<!-- hadoop运行时使用的临时文件夹 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/cdh5.3.6/hadoop-2.5.0-cdh5.3.6/tmp</value>
</property>
hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
mapred-site.xml
<!-- 告诉hadoop,mapreduce要在yarn上启动 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<!--配置实际运行历史服务的主机名和端口-->
<name>mapreduce.jobhistory.address</name>
<value>nicole02.com.cn:10020</value>
</property>
<property>
<!-- 在web页面访问历史服务的主机名和端口 -->
<name>mapreduce.jobhistory.webapp.address</name>
<value>nicole02.com.cn:19888</value>
</property>
yarn-site.xml
<!-- NodeManager获取数据的方式是shuffle -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的管理者resourcemanager在哪里 -->