hadoop搭建全过程

环境介绍

服务器: 阿里云Centos7.4

hadoop版本: hadoop-2.7.2

下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2

搭建环境
节点teacher1teacher2teacher3
HDFSNameNode,DataNodeDataNodeDataNode,secondarynamenode
YARNNodeManagerResourceManager,NodeManagerNodeManager
配置host
vi /etc/hosts
39.107.96.104 teacher1
172.17.50.3 teacher2
172.17.50.4 teacher3
172.17.50.2 teacher1
39.107.72.162 teacher2
172.17.50.4 teacher3
172.17.50.2 teacher1
172.17.50.3 teacher2
39.107.67.194 teacher3
  • 阿里云有个坑,配置自己的主机名是要用外网ip,其他主机要用内网ip。
SSH互通环境

MHA集群的各节点直接需要基于ssh互相通信,先将主从的服务器之间免密ssh互通

ssh-keygen -t  rsa


ssh-copy-id -i ~/.ssh/id_rsa.pub root@teacher1 

ssh-copy-id -i ~/.ssh/id_rsa.pub root@teacher2 

ssh-copy-id -i ~/.ssh/id_rsa.pub root@teacher3

安装Hadoop
  1. 用文件传输工具工具将hadoop-2.7.2.tar.gz导入到opt目录下面的software文件夹下面
  2. 进入到Hadoop安装包路径下
cd ~/software/
  1. 解压安装文件到/opt/module下面
tar -zxvf hadoop-2.7.2.tar.gz -C /home/teacher/opt/module/
  1. 将hadoop添加到环境变量打开/etc/profile:在profie文件末尾添加jdk路径
vi /etc/profile
export HADOOP_HOME=/home/teacher/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
source /etc/profile
  1. 测试是否安装成功
hadoop version
集群配置

1.配置hadoop-env.sh

vi hadoop-env.sh
//文件末尾
export JAVA_HOME=/opt/module/jdk1.8.0_231

2.核心配置文件:core-site.xml(hdfs的核心配置文件)

vi core-site.xml
<!-- 指定HDFS中NameNode的地址 -->
<property>
	<name>fs.defaultFS</name>
	<value>hdfs://teacher1:9000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
	<name>hadoop.tmp.dir</name>
	<value>/home/teacher/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

3.hdfs配置文件 hdfs-site.xml

vi hdfs-site.xml
<property>
	<name>dfs.replication</name>
	<value>3</value>
</property>
<!--secondarynamenode的地址--> 辅助namenode工作
<property>
	<name>dfs.namenode.secondary.http-address</name>
	<value>teacher3:50090</value>
</property>
<property>
	<name>dfs.name.dir</name>
	<value>/home/teacher/data/hadoop/name/</value>
</property>
<property>
	<name>dfs.data.dir</name>
	<value>/home/teacher/data/hadoop/data/</value>
</property>

4.yarn配置文件

vi yarn-env.sh
<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>teacher2</value>
</property>
<property>
	<name>yarn.nodemanager.resource.memory-mb</name>
	<value>3072</value>
</property>

5.mapreduce配置文件

cp mapred-site.xml.template mapred-site.xml 
<!-- 指定mr运行在yarn上 -->
<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>

6.配置集群中从节点信息

vim slaves
teacher1
teacher2
teacher3

7.分发文件,将teacher1中hadoop目录下的软件拷贝到其他机器

scp -r hadoop-2.7.2 teacher3:/home/teacher/opt/module/
集群启动

如果果集群是第一次启动,需要格式化NameNode

hadoop namenode -format
1. 各个服务组件逐一启动/停止(集群某个进程挂掉使用这种方式重启 )

分别启动/停止hdfs组件

hadoop-daemon.sh start|stop namenode|datanode|secondarynamenod

启动/停止yarn.

yarn-daemon.sh start|stop resourcemanager|nodemanager
2、分模块启动,集群启动方式
(1)整体启动/停止hdfs(在namenode节点启动)
start-dfs.sh
stop-dfs.sh
(2)整体启动/停止yarn (在resourcemanager节点启动)
start-yarn.sh
stop-yarn.sh
测试结果

Web端查看SecondaryNameNode: http://teacher3:50090/status.html
Yarn的web页面查看地址:http://teacher2:8088/

在这里插入图片描述

在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Hadoop是一个分布式计算框架,可以支持海量数据处理。伪分布式是Hadoop的一种最简单的部署方式,可以通过单个计算机模拟分布式环境。 1. 安装Java环境:Hadoop是用Java编写的,因此需要先安装Java环境。可以从官网下载最新版本的Java SDK并安装。 2. 下载Hadoop:可以从官网下载Hadoop的最新版本,并解压到指定的安装目录下。 3. 配置Hadoop环境变量:在~/.bashrc或~/.bash_profile文件中添加以下内容: export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64 export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin 4. 修改Hadoop配置文件:Hadoop的配置文件位于$HADOOP_HOME/etc/hadoop/目录下。需要修改hadoop-env.sh、core-site.xml、hdfs-site.xml和mapred-site.xml文件: a. 在hadoop-env.sh中设置JAVA_HOME变量:export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64 b. 在core-site.xml中添加以下内容: <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> c. 在hdfs-site.xml中添加以下内容: <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop/data/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop/data/datanode</value> </property> </configuration> d. 在mapred-site.xml中添加以下内容: <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> 5. 格式化Hadoop文件系统:执行以下命令来格式化Hadoop的文件系统: $HADOOP_HOME/bin/hdfs namenode -format 6. 启动Hadoop集群:执行以下命令来启动Hadoop集群: $HADOOP_HOME/sbin/start-all.sh 7. 验证Hadoop集群:打开浏览器并访问localhost:50070,可以看到Hadoop的Web界面。在Web界面中,可以看到目前正在运行的Hadoop集群和其各个节点的状态。 以上就是Hadoop伪分布式搭建全过程的详细步骤,通过以上步骤可以快速搭建一个简单的Hadoop集群。 ### 回答2: Hadoop是一个分布式计算、存储框架,常用于大数据处理。它可以分别运行在分布式计算集群中的每个节点上,以便高效地处理和存储海量数据。伪分布式搭建是最常用的Hadoop搭建方式,下面介绍伪分布式搭建全过程。 1. 环境准备 在开始之前,需要确保系统中已经安装了SSH,Java和Hadoop软件包。我们可以使用apt-get或yum命令进行安装。 2. 修改配置文件 进入Hadoop安装目录,找到conf文件夹下的三个文件:core-site.xml,hdfs-site.xml,mapred-site.xml。在core-site.xml文件中配置Hadoop的基础配置。以下是示例配置: ```xml <configuration> <property> <name>hadoop.tmp.dir</name> <value>/var/hadoop/tmp</value> </property> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> ``` 在hdfs-site.xml文件中配置HDFS的配置。以下是示例配置: ```xml <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/var/hadoop/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/var/hadoop/datanode</value> </property> </configuration> ``` 在mapred-site.xml中,加入以下内容: ```xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> ``` 3. 设置环境变量 在系统的环境变量文件中,加入以下内容: ```sh export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export HADOOP_HOME=/var/hadoop/hadoop-3.2.1 export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin ``` 4. 格式化HDFS文件系统 在命令行中输入以下命令,格式化HDFS文件系统: ```sh $ hdfs namenode -format ``` 5. 启动HDFS和YARN 在命令行中输入以下命令,启动HDFS和YARN: ```sh $ start-dfs.sh $ start-yarn.sh ``` 6. 验证 在浏览器中访问Hadoop的Web UI,可以查看各节点的运行情况。默认端口为50070。同时,可以在命令行中创建文件夹,并上传文件进行测试。 以上就是Hadoop伪分布式搭建全过程。根据实际情况,可以根据需要对配置文件进行修改和优化,以获得更好的性能和体验。 ### 回答3: Hadoop是一个分布式系统的框架,可以实现数据的分布式处理和存储。在伪分布式下,所有的Hadoop组件都运行在一个单独的节点上,模拟了完全分布式的环境。下面将会为大家介绍如何实现Hadoop的伪分布式搭建。 首先,我们需要安装好Java和SSH,在此不再赘述。 1. 下载Hadoop 可以到官网下载最新版本的Hadoop,或者从镜像网站上下载。我们这里使用的是Hadoop 3.0.0版本。 2. 解压缩Hadoop文件 将下载的压缩文件解压缩到指定的目录下,使用命令 tar -zxvf hadoop-3.0.0.tar.gz。 3. 配置Hadoop文件 进行一些配置文件的更改,包括hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml等等。 首先修改hadoop-env.sh文件,将JAVA_HOME变量设置为Java安装目录的路径。其次,修改core-site.xml文件,需要指定Hadoop的文件系统路径。再次,修改hdfs-site.xml文件,需要指定Hadoop数据节点的名称、数据块的保存方式和副本数。接着,修改mapred-site.xml文件,配置MapReduce任务处理框架。最后,修改yarn-site.xml文件,配置YARN资源管理器和NodeManager节点管理器。 4. 格式化文件系统 使用以下命令在HDFS上创建一个空文件系统,hadoop namenode –format。 5. 启动Hadoop 使用以下命令将Hadoop启动,start-all.sh或start-dfs.sh、start-yarn.sh命令。 现在,您可以在Hadoop的控制台中看到所有的服务器列表,并可以运行MapReduce任务来处理HDFS上的数据了。这些是Hadoop伪分布式部署的主要步骤,如果您按照这些步骤进行操作,相信您可以顺利地完成整个过程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值