- 2.1、Hadoop软件
- 2.2、Hadoop的伪分布式部署
- 2.3、Hadoop部署之密钥文件解析
- 2.4、Hadoop三进程都以hostname进行启动
- 2.5、Hadoop的安装过程总结
- 2.6、Hadoop的web页面解读
- 2.7、初识hdfs命令
一、上次课程回顾
- https://blog.csdn.net/SparkOnYarn/article/details/104904205
二、初识Hadoop
Hadoop的官网:hadoop.apache.org、spark.apache.org、kafka.apache.org
广义:以apache hadoop软件为主的的生态圈(hive、SQOOP、flume、flink、hbase…)
狭义:单纯的指apache hadoop软件
apache hadoop软件:
1.x:基本不用
2.x:现在市场主流,对应的cdh5.X
3.x:有一些企业尝试使用,cdh对应的版本就是cdh6.X
-
cdh版的hadoop的下载网址,本次课程的组件主要使用cdh的官方提供的:
http://archive.cloudera.com/cdh5/cdh/5/
http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.16.2.tar.gz -
这就说明了hadoop的版本是2.6.0,我们使用的cdh版本的2.6.0,他可以媲美apache hadoop2.9
hadoop-2.6.0-cdh5.16.2.tar.gz
apache hadoop2.6.0 + 以后的patch==apache hadoop2.9 -
如下cdh hadoop的每一个版本都会进行升级打包,比如某个组件有bug,我们从cdh5.14升级到cdh5.16,进入到changes.log进行查看升级即可。
CDH5.14.0 hadoop-2.6.0
CDH5.16.2 hadoop-2.6.0 -
apache的hadoop2.9、3.X版本已经出现了,apache基金会的hadoop是开源的,其主要bug是由cloudera公司的人员进行提交代码、推进的。
-
使用cdh版本hadoop的好处:版本兼容性不必考虑,比如未来要安装hbase,hbase安装的分支也需要和hadoop一样在cdh5.16.2这个分支下。
http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.16.2-changes.log
http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.16.2-changes.log
2.1、Hadoop软件
hdfs 存储
mapreduce 计算 作业 挖掘出有价值的数据进行挖掘 --> hive sql spark flink
yarn 资源(内存、Vcore)调度+作业调度
大数据就是由海量数据组成,一台机器完成不了存储,一台机器是一个单点计算;比如我们有1000台的机器,是由hdfs进行存储,mapreduce进行分布式存储,yarn根据cpu、内存来进行资源
作业调度。
为什么mapreduce在业界不用呢?
- 开发难度大,代码量大,维护困难,计算慢,所以大家基本不会使用MR
- 课程版本:hadoop-2.6.0-cdh5.16.2
2.2、Hadoop的部署
1、创建用户、解压软件
1、创建hadoop用户:
- useradd hadoop
2、mkdir app data lib log software sourcecode tmp
[hadoop@hadoop ~]$ ll
total 28
drwxrwxr-x 3 hadoop hadoop 4096 Mar 20 16:21 app 压缩包解压后的文件夹 尽量做软连接
drwxrwxr-x 2 hadoop hadoop 4096 Mar 8 17:49 data 数据目录
drwxrwxr-x 2 hadoop hadoop 4096 Mar 20 16:23 lib 第三方的jar
drwxrwxr-x 2 hadoop hadoop 4096 Mar 20 16:23 log 日志文件夹爱
drwxrwxr-x 2 hadoop hadoop 4096 Mar 8 20:27 software 压缩包
drwxrwxr-x 2 hadoop hadoop 4096 Mar 20 16:23 sourcecode 源代码编译
drwxrwxr-x 2 hadoop hadoop 4096 Mar 20 16:23 tmp 临时文件夹
//linux本身已经自带了tmp目录,为什么我们还要建一个tmp目录呢,系统自带的会30天定期删除。
3、进行解压缩,并且做一个软连接:
[hadoop@hadoop ~]$ tar -xzvf hadoop-2.6.0-cdh5.16.2.tar.gz -C /home/hadoop/app/
[hadoop@hadoop app]$ ln -s hadoop-2.6.0-cdh5.16.2 hadoop
软件的安装前提:java环境、ssh无密码
2、安装java jdk环境:
1、mkdir /usr/java,创建这个目录
2、rz把软件进行上传,解压到这个目录以后配置环境变量,如下所示:
#env
export JAVA_HOME