Hadoop伪分布式集群搭建

1.快速了解Hadoop

1.1什么是Hadoop?
   Hadoop是一个提供分布式存储和计算能力的平台,我们简单的将它理解为一个分布式的主从架构,其中包括用于存储的HDFS和用于计算的MapReduce,我们只要知道他主要用于大数据量的分区和大数据集的并行计算。
  那么数据量有多大才算是大数据量呢,简单的说达到PB级,也就是2的50次方个字节,或者在数值上大约等于1000个TB。

Hadoop架构图在这里Hadoop架构图插入图片描述
1.2 Hadoop的核心组件

HDFS 和 MapReduce

HDFS(分布式文件系统)是Hadoop的存储组件 ,HDFS按照配置的副本数复制文件,他能容忍硬件及软件的错误,且能够自动重新复制坏点上的数据块,这几点特性真的是太实用了,我自己电脑上的垃圾配置也能用分布式系统来存储啦,多个节点备份再也不怕数据丢失啦~
MapReduce是基于批处理的分布式计算框架,也是在Google论文发表后实现的。他可以并行处理大量原始数据,如合并网络日志与OLTP数据库的相关数据。你只需知道这是用于处理大量数据的计算框架,他处理数据速度也非常快。
在这里插入图片描述 他的工作流程我顺手画了一下,大概是这样子哈哈~~,画的好糙
在这里插入图片描述
*

*MapReduce的主要功能展现在map输出和reduce输入之间的shuffle和sort阶段

废话不多说,接下来是搭建集群的精华部分,如果还对Hadoop集群了解有疑问还想更深入了解的话, [推荐看] https://blog.csdn.net/jiangyu1013/article/details/72644098

2.搭建Hadoop伪分布式集群准备工作

 准备一台虚拟机 一个centos镜像 一个Hadoop安装包 一个jdk安装包

VM安装
1.下载VMware Pro14
https://www.newasp.net/soft/345086.html
2.rhel5,6,7,centos镜像文件下载
首先打开网易开源镜像站: http://mirrors.163.com/
或者阿里开源镜像站:http://mirrors.aliyun.com/
python包:https://pypi.python.org/pypi

2.1首先需要在虚拟机里面搭建一个master主节点,搭建步骤就不说了,不会的可以点这个链接:https://blog.csdn.net/code__online/article/details/80178032
2.2打开装好的master节点,安装和配置jdk,配置好网络;
2.3克隆master节点分别为slave1,slave2, slave3,这三个节点为从节点,(从节点的个数
按你的需求设置)配置这三个从节点的网络(直接编辑vi /etc/sysconfig/network-script/ifcfg-ethx),我用的是centos7的镜像,使配置文件生效的命令是 systemctl restart network
2.4配置4个主从节点的host列表
vi /etc/hosts
ip 主机名

在这里插入图片描述
4.无密钥登陆
在主节点 ssh-keygen -t rsa 生成密钥

  cd .ssh

查看生成的公钥 id_rsa.pub和私钥id_rsa
复制公钥 到authorized_keys文件

cp ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

更改新文件的权限防止公钥被篡改

chmod 600 ~/.ssh/authorized_keys

用scp命令将主节点的公钥复制到各个从节点的**.ssh目录**(此时需要输入密码)

scp ~/.ssh/authorizes_keys  ip@主机名:/root/.ssh/

4.2验证·免密钥登陆成功
在主节点输入ssh 从节点名字 若不需输入密码,直接进入,则为成功;

3.开始Hadoop伪分布式集群的正式搭建

3.1Hadoop安装包解压
进入Hadoop安装包路径 tar -xvf ~/hadoop-2.7.3.tar.gz
查看是否解压成功 cd ~/hadoop-2.7.3
若出现这些文件即为解压成功
在这里插入图片描述

# 3.2 更改7个配置文件的内容

在这里插入图片描述
其中七个配置文件更改方式如下:
在哈哈,凑合看吧这里插入图片描述!

3.3 配置文件修改后 基本就稳了

因为一般我都是配置文件敲错了哈哈哈哈哈,太笨了我在这里插入图片描述

使用SCP命令将已经配置完成的Hadoop复制到从节点HadoopSlave上

 [root@master hadoop-2.7.3]$ scp -r /root/hadoop-2.7.3 root@slave1:~/
 [root@master hadoop-2.7.3]$ scp -r /root/hadoop-2.7.3 root@slave2:~/
 [root@master hadoop-2.7.3]$ scp -r /root/hadoop-2.7.3 root@slave3:~/
 每个人Hadoop包安装路径不一样,所以别照着我的命令敲,按你自己安装路径来,我有3个从节点,所以要执行三次,之前设置成功了免密登陆,所以文件会直接传输成功,不用输入密码。

3.4在每一个节点上配置Hadoop启动的系统环境变量

[root@master  ~]$ gedit ~/.bash_profile
将下面的代码追加到.bash_profile末尾  gedit 可以换成vi
#HADOOP
export HADOOP_HOME=/root/hadoop-2.7.3
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
一样的,按你自己的路径来!!
接下来是从节点一个一个配!

我之前配置完这个之后就跑去启动Hadoop集群,结果怎么都启动不成功,终于在我刷了3个小时抖音之后我想起来 忘记执行命令source ~/.bash_profile让配置生效了 哈哈哈哈哈服了

[root@master  ~]$ source  ~/.bash_profile
[root@slave1  ~]$ source  ~/.bash_profile    
[root@slave2 ~]$ source  ~/.bash_profile   
[root@slave3 ~]$ source  ~/.bash_profile   使配置生效

3.5启动Hadoop集群

Everybody现在最后一步让我们嗨起来

在这里插入图片描述
此操作只需在master节点上执行:

  第一步:格式化命令 hdfs namenode -format

执行结果如下:
在这里插入图片描述Alt

第二步:启动Hadoop 进入Hadoop安装主目录 下的 sbin 文件夹下 执行命令:start-all.sh   此命令将会同时启动start-mapred.sh和start-yarn.sh
执行命令后,提示输入yes/no时,输入yes

在这里插入图片描述

 第三步:查看进程是否启动成功 jps命令

如图所示:在马上这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

明日再更!!!!!!!!!!!!!!!!

  • 5
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值