hadopp分布式安装总结

最新推荐文章于 2022-12-09 18:03:32 发布

@陌小军

最新推荐文章于 2022-12-09 18:03:32 发布

阅读量284

点赞数

文章标签： hadoop 分布式

本文链接：https://blog.csdn.net/gjh0912/article/details/108706603

版权

1.三台虚拟机

2.固定IP地址，修改主机名

sudo vim /etc/hostname

网络配置，包括ip地址，子网掩码，DNS服务器。

修改每台电脑的hosts文件。

hosts文件和windows上的功能是一样的。存储主机名和ip地址的映射。

在每台linux上，sudo vim /etc/hosts 编写hosts文件。将主机名和ip地址的映射填写进去。

3.安装jdk并配置坏境

4.ssh

无密码登陆，效果也就是在master上，通过 ssh host2 或 ssh host3 或 ssh host4 就可以登陆到对方计算机上。而且不用输入密码。

三台虚拟机上，使用 ssh-keygen -t rsa 一路按回车就行了。

刚才都作甚了呢？主要是设置ssh的密钥和密钥的存放路径。路径为~/.ssh下。

打开~/.ssh 下面有三个文件

authorized_keys，已认证的keys

id_rsa，私钥

id_rsa.pub，公钥三个文件。

下面就是关键的地方了，（我们要做ssh认证。进行下面操作前，可以先搜关于认证和加密区别以及各自的过程。）

①在master上将公钥放到authorized_keys里。命令：sudo cat id_rsa.pub >> authorized_keys

②将master上的authorized_keys放到其他linux的~/.ssh目录下。

命令：sudo scp authorized_keys hadoop@10.10.11.192:~/.ssh

sudo scp authorized_keys 远程主机用户名@远程主机名或ip:存放路径。

③修改authorized_keys权限，命令：chmod 644 authorized_keys

④测试是否成功

ssh host2 输入用户名密码，然后退出，再次ssh host2不用密码，直接进入系统。这就表示成功了。

5.安装配置hadoop

配置文件说明：

hadoop-env.xml：对文件的运行环境进行配置，hadoop是基于java的，所以同样需要JDK

core-site.xml:hadoop的核心配置文件，配置指定集群NameNode，设置hadoop公用变量，创建hadoop的临时目录等

hdfs-site.xml:分布式文件系统配置，包含对存储文件时的文件设置，比如副本数量。配置DataNode的本地路径，dataNode节点路径等。

yarn-site.xml:配置yarn，yarn用于管理分布式系统的CPU利用率，磁盘使用情况等。shuffle过程使用的执行器（可以使用不同的执行器，比如spark）

mapreduce-site.xml:配置数据计算框架（支持多种框架），JobTracker的主机主机端口，存储缓冲数据配置，历史服务器配置等

slaves：存储所有的dateNodo节点IP

master：并不是所有的配置文件中都包含这个文件，放置NameNode节点的IP

iptables 防火墙的设置

查看防火墙状态：sudo service iptables status
暂时关闭防火墙：sudo service iptables stop
禁止防火墙在开机时启动chkconfig iptables off
设置防火墙在开机时启动chkconfig iptables on

补充知识

1.namenode：在内存中保存整个命名空间的所有文件和块元数据，它的内存需求很大。

2.secondnamenode：保存一份最新的检查点，记录文件系统的元数据，有助于在数据丢失或系统崩溃时恢复namenode的元数据；它在大多时候空闲，但它创建检查时的内存需求和namenode差不多。一旦文件系统包含大量文件，单台主机可能无法同时运行namenode和secondarynamenode。
3.jobtracker：在一个运行大量mapreduce作业的高负载集群上，jobtracker会使用大量内存和CPU资源，因此它最好运行在一个专用节点上。
4.HDFS控制脚本需要在namenode机器上运行；mapreduce控制脚本需要在jobtracker机器上运行。

5.start-dfs.sh：在本地节点启动namenode，在slave文件指定的每个节点启动datanode，在master文件指定的每个节点启动secondarynamenode
6. start-mapred.sh：在本地节点启动jobtracker，在slave文件指定的每个节点启动tasktracker。
7. start-all.sh：依次调用start-dfs.sh和start-mapred.sh
8. stop-dfs.sh/stop-mapred.sh/stop-all.sh：前面的start脚本对应的关闭脚本。
9. hadoop-daemon.sh：上述脚本调用它来执行启动和终止hadoop守护进程。如果用户需要从其他系统或自己编写脚本控制hadoop守护进程，可以调用它。
10. hadoop-daemons.sh：用于在多个主机上启动同一hadoop守护进程

11.访问hadoop 的NameNode 50070(hdfs web访问端口)/8088端口（yarn访问端口）(前提是你没有在配置文件改变这些端口)

在这里插入图片描述