Hadoop框架
Hadoop是Apache提供的开源的, 可靠的, 可拓展的, 用于分布式存储(计算)的框架.
Hadoop除了官网提供的发行版以外, 还有很多其他版本. 各大厂商中比较出名的发行版: Cloudera的CDH, 华为的HDP.
模块
Hadoop Common: 基本模块, 为了支持其他Hadoop模块存在
Hadoop Distributed File System(HDFS): 分布式文件系统,存储海量数据
Hadoop YARN: 是一个用于任务调度和资源管理的框架
Hadoop MapReduce: 基于YARN的进行分布式计算的框架
这四个模块是主要学习内容
Hadoop Ozone: 面对Hadoop的进行对象存储的技术
Hadoop Submarine: 用于机器学习的引擎
版本
Hadoop1.0: 包含HDFS和MapReduce
Hadoop2.0: HDFS,MapReduce, YARN 后期版本支持Ozone
Hadoop3.0:包含Hadoop的所有模块, 可以兼容2.0
注意:2.0和3.0都不兼容1.0
安装版本
单机版: MapReduce
特点: 安装解压包就可以使用, 只能够使用一个模块MapReduce, 产生的数据存储在本机上
伪分布式版本: HDFS, MapReduce ,YARN
特点: 利用一个节点模拟整个集群环境, 则一个节点上面启动该集群上的所有进程. 能够使用所有的模块
完全分布式版本
特点:利用集群来部署hadoop
安装Hadoop
- 关闭防火墙
service iptables stop
chkconfig iptables off
//永久关闭防火墙
- 修改配置文件
vim /etc/sysconfig/network
添加HOSTNAME=hadoop01
- 修改映射
vim /etc/hosts
将本机ip与刚刚修改的主机名添加
重启系统
- 生成秘钥
ssh-keygen
- 复制秘钥
ssh-copy-id root@hadoop01
将秘钥复制到hadoop01这个用户中
输入yes
免密登录设置完成
每次新创建hadoop都需要这个步骤
为什么会使用秘钥, 服务器中有多台计算机, 连接每台计算机都要输入一次密码. 这就要使用免密登录.
- 安装解压hadoop
修改hadoop配置文件
针对伪分布式安装修改6个文件
第一个文件
hadoop-env.sh 环境
修改JAVA_HOME
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_251
修改HADOOP_CONF_DIR
export HADOOP_CONF_DIR=/home/software/hadoop-2.7.1/etc/hadoop
退出保存
使文件生效source hadoop-env.sh
第二个文件
core-site.xml
vim 打开xml文件
添加
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/software/hadoop-2.7.1/tmp</value>
</property>
</configuration>
第一个property标签指定IFS协议的用户为hadoop01的9000端口
内部通过9000端口通信.
第二个property标签指定存储数据的文件夹.
第三个文件
hdfs-site.xml
vim 打开xml文件
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
配置分布式文件系统附件, 与数据存储相关
第四个文件
mapred-site.xml.template
先复制模板文件
cp mapred-site.xml.template mapred-site.xml
再修改vim mapred-site.xml
添加
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
MapReduce框架
第五个文件
yarn-site.xml
修改vim yarn-site.xml
添加
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop01</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
设置yarn的资源管理者
第二个为固定值
第六个文件
slaves
存放节点信息
vim slaves
删除localhost
添加
hadoop01
将映射添加即可
配置完成以上文件
启动hadoop
启动前先进入/etc/profile
vim修改 vim /etc/profile
export JAVA_HOME PATH CLASSPATH
#hadoop environment
export HADOOP_HOME=/home/software/hadoop-2.7.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存退出后运行
source /etc/profile
第一次启动hadoop
只有在第一次启动时需要格式化
节点格式化
hadoop namenode -format
启动hadoop
start-all.sh
启动过程中会多次输入密匙的密码: 123456
关闭hadoop
stop-all.sh
在网页中查看hadoop是否成功启动192.168.244.130:50070
需要关闭防火墙