hadopp分布式安装总结

1.三台虚拟机

2.固定IP地址,修改主机名

sudo vim /etc/hostname

网络配置,包括ip地址,子网掩码,DNS服务器。

修改每台电脑的hosts文件。

hosts文件和windows上的功能是一样的。存储主机名和ip地址的映射。

在每台linux上,sudo vim /etc/hosts 编写hosts文件。将主机名和ip地址的映射填写进去。

3.安装jdk并配置坏境

4.ssh

无密码登陆,效果也就是在master上,通过 ssh host2 或 ssh host3 或 ssh host4 就可以登陆到对方计算机上。而且不用输入密码。

三台虚拟机上,使用 ssh-keygen -t rsa 一路按回车就行了。

刚才都作甚了呢?主要是设置ssh的密钥和密钥的存放路径。 路径为~/.ssh下。

打开~/.ssh 下面有三个文件

authorized_keys,已认证的keys

id_rsa,私钥

id_rsa.pub,公钥 三个文件。

下面就是关键的地方了,(我们要做ssh认证。进行下面操作前,可以先搜关于认证和加密区别以及各自的过程。)

①在master上将公钥放到authorized_keys里。命令:sudo cat id_rsa.pub >> authorized_keys

②将master上的authorized_keys放到其他linux的~/.ssh目录下。

命令:sudo scp authorized_keys hadoop@10.10.11.192:~/.ssh

sudo scp authorized_keys 远程主机用户名@远程主机名或ip:存放路径。

③修改authorized_keys权限,命令:chmod 644 authorized_keys

④测试是否成功

ssh host2 输入用户名密码,然后退出,再次ssh host2不用密码,直接进入系统。这就表示成功了。

5.安装配置hadoop

配置文件说明:

hadoop-env.xml:对文件的运行环境进行配置,hadoop是基于java的,所以同样需要JDK

core-site.xml:hadoop的核心配置文件,配置指定集群NameNode,设置hadoop公用变量,创建hadoop的临时目录等

hdfs-site.xml:分布式文件系统配置,包含对存储文件时的文件设置,比如副本数量。配置DataNode的本地路径,dataNode节点路径等。

yarn-site.xml:配置yarn,yarn用于管理分布式系统的CPU利用率,磁盘使用情况等。shuffle过程使用的执行器(可以使用不同的执行器,比如spark)

mapreduce-site.xml:配置数据计算框架(支持多种框架),JobTracker的主机主机端口,存储缓冲数据配置,历史服务器配置等

slaves:存储所有的dateNodo节点IP

master:并不是所有的配置文件中都包含这个文件,放置NameNode节点的IP

iptables 防火墙的设置

查看防火墙状态:sudo service iptables status
暂时关闭防火墙:sudo service iptables stop
禁止防火墙在开机时启动chkconfig iptables off
设置防火墙在开机时启动chkconfig iptables on

补充知识

1.namenode:在内存中保存整个命名空间的所有文件和块元数据,它的内存需求很大。

2.secondnamenode:保存一份最新的检查点,记录文件系统的元数据,有助于在数据丢失或系统崩溃时恢复namenode的元数据;它在大多时候空闲,但它创建检查时的内存需求和namenode差不多。一旦文件系统包含大量文件,单台主机可能无法同时运行namenode和secondarynamenode。
3.jobtracker:在一个运行大量mapreduce作业的高负载集群上,jobtracker会使用大量内存和CPU资源,因此它最好运行在一个专用节点上。
4.HDFS控制脚本需要在namenode机器上运行;mapreduce控制脚本需要在jobtracker机器上运行。

5.start-dfs.sh:在本地节点启动namenode,在slave文件指定的每个节点启动datanode,在master文件指定的每个节点启动secondarynamenode
6. start-mapred.sh:在本地节点启动jobtracker,在slave文件指定的每个节点启动tasktracker。
7. start-all.sh:依次调用start-dfs.sh和start-mapred.sh
8. stop-dfs.sh/stop-mapred.sh/stop-all.sh:前面的start脚本对应的关闭脚本。
9. hadoop-daemon.sh:上述脚本调用它来执行启动和终止hadoop守护进程。如果用户需要从其他系统或自己编写脚本控制hadoop守护进程,可以调用它。
10. hadoop-daemons.sh:用于在多个主机上启动同一hadoop守护进程

11.访问hadoop 的NameNode 50070(hdfs web访问端口)/8088端口(yarn访问端口)(前提是你没有在配置文件改变这些端口)

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值