Hadoop安装目录
基本包下载
jdk下载
hadoop各版本下载地址
地址:https://archive.apache.org/dist/hadoop/common/
linux中的配置
jdk环境搭建
首先配置好jdk环境变量,解压好刚刚下载的jdk文件,记录好路径
进去profile中添加环境变量
根据自己刚刚下载的jdk路径配置
然后source /etc/profile
java -version 查看是否安装成功
修改主机名
vi /etc/sysconfig/network中修改它默认的HOSTNAME改成你想要的主机名
vi /etc/hosts中将默认的名修改成你要的名字
vi /etc/hostname中将默认的名修改成你要的名字
ssh免密连接
所有的虚拟机上都在/etc/hosts最后加上ip 和主机名
进行免密操作
我机子已经做过此操作就不做了,避免我机子出事
ssh-keygen 获取密钥
所有的节点(机子)都要
ssh-copy-id 虚拟机主机名
所有节点都要,如果有三台虚拟机每台机子都要操作2次
最后ssh 主机名进行连接测试
Hadoop搭建
解压下载好的hadoop压缩包
搭建hadoop主要是要修改hadoop-env.sh hdfs-site.xml core-site.xml mapred-site.xml 这几个文件
hadoop-env.sh
找到export JAVA_HOME这行将jdk路径写了
core-site.xml文件
在<configuration></configuration>
之间加入以下代码
其中/usr/temp这个自己设置到你想要的位置
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/temp</value>
</property>
</configuration>
hdfs-site.xml
在<configuration></configuration>
之间加入以下代码
其中file:/usr/hadoop/dfs/name;file:/usr/hadoop/dfs/data
文件夹要自己创建
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>slave1:50090</value>
</property>
</configuration>
mapred-site.xml
在<configuration></configuration>
之间加入以下代码
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
</configuration>
yarn-site-xml
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.application.classpath</name>
<value>/usr/hadoop/hadoop-3.3.0/etc/hadoop:/usr/hadoop/hadoop-3.3.0/share/hadoop/common/lib/*:/usr/hadoop/hadoop-3.3.0/share/hadoop/common/*:/usr/hadoop/hadoop-3. 3.0/share/hadoop/hdfs:/usr/hadoop/hadoop-3.3.0/share/hadoop/hdfs/lib/*:/usr/hadoop/hadoop-3.3.0/share/hadoop/hdfs/*:/usr/hadoop/hadoop-3.3.0/share/hadoop/mapreduce/*:/usr/hadoop/ hadoop-3.3.0/share/hadoop/yarn:/usr/hadoop/hadoop-3.3.0/share/hadoop/yarn/lib/*:/usr/hadoop/hadoop-3.3.0/share/hadoop/yarn/*</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>22528</value>
<discription>每个节点可用内存,单位MB</discription>
</property>
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>1500</value>
<discription>单个任务可申请最少内存,默认1024MB</discription>
</property>
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>16384</value>
<discription>单个任务可申请最大内存,默认8192MB</discription>
</property>
修改workers文件
全部修改完后将修改好的hadoop文件远程scp传给另外两台虚拟机
查看是否安装成功
格式化并启动Hadoop
!!!在主节点上执行就行了
输入hdfs namenode -format
!!!启动一次就行,再此启动其中的一些东西会发生改变导致集群无法启动
倒数几行找找要看见format successful才算成功格式化
进入sbin文件执行start-all.sh
jps查看进程
这是master节点
这是slave1节点
这是slave2节点
出现这些代表着Hadoop集群搭建完成
使用UI查看
在网页上输入localhostname加上9870查看,如出现下图则证明搭建成功
能访问9870但是不能访问8088
!!!先关防火墙或者开放端口
输入命令进行查看
netstat -anp |grep 8088
netstat -anp |grep 9870
发现8088端口前面的ip 是127.0.0.1,而9870端口号是0.0.0.0
解决办法
就是修改namenode机器的/etc/hosts 文件 ,对下图这两行进行注释
重启Hadoop集群
在网页上输入localhostname加上8088进行查看