hadoop伪分布式安装、配置，详解

最新推荐文章于 2022-04-03 12:08:49 发布

D目录

最新推荐文章于 2022-04-03 12:08:49 发布

阅读量259

点赞数

分类专栏：配置文章标签： linux hadoop 大数据 hdfs Apache Hadoop YARN

本文链接：https://blog.csdn.net/qq_45363033/article/details/107125880

版权

配置专栏收录该内容

15 篇文章 0 订阅

订阅专栏

本文详述如何在CentOS7上安装Hadoop2.6.0进行伪分布式配置。步骤包括：安装前准备，如安装JDK和下载Hadoop；修改配置文件，如hadoop-env.sh、core-site.xml、hdfs-site.xml、yarn-site.xml和mapred-site.xml；设置环境变量；最后进行Hadoop的启动和关闭操作。

摘要由CSDN通过智能技术生成

本例在centos7上安装hadoop2.6.0。

1、准备虚拟机，安装jdk，下载安装软件
安装虚拟机可以参考：虚拟机安装linux、配置网络、连接xshell
安装jdk可以参考：linux安装jdk，详解
本文使用hadoop-2.6.0-cdh5.14.2，可用下载链接。其它的cdh版本的相关软件可到此选择下载:http://archive.cloudera.com/cdh5/cdh/5/。

我这里在/opt下创建了software和install文件夹用以存放下载的压缩包和解压后的文件
把下载的包放到software里后，进入software文件夹，加压文件到install文件夹中

cd /opt/software
tar zxf hadoop-2.6.0-cdh5.14.2.tar.gz -C /opt/install/

为了方便，我还把虚拟机的地址添加到**/etc/hosts**里了
在这里插入图片描述

2、修改配置文件
进入hadoop配置文件夹

cd /opt/install/hadoop-2.6.0-cdh5.14.2/etc/hadoop/

大致需要修改的文件如图
在这里插入图片描述

----在hadoop-env.sh内修改JAVA_HOME的路径

----在core-site.xml中添加配置

	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://hadoop1:9000</value>
	</property>
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/install/hadoop-2.6.0-cdh5.14.2/data/tmp</value>
	</property>

在这里插入图片描述
fs.defaultFS指定文件系统位置，其实指定namenode接受心跳信息的端口。这里配置的就是本机ip:9000，因为我之前就在/etc/hosts文件已经添加过本机ip和对应主机名，所以直接写的hadoop1:9000
hadoop.tmp.dir指定hadoop运行时产生文件的存储目录。默认目录指向的是/tmp，而系统重启时会自动删除/tmp目录下的文件，就会导致之前的很多操作被删除，故重新设置文件夹给它

----在hdfs-site.xml里添加配置

	<property>
		<name>dfs.replication</name>
		<value>1</value>
	</property>

在这里插入图片描述
dfs.replication指定存文件的副本数

----在yarn-site.xml里添加配置

	<property>
		<name>yarn.resourcemanager.localhost</name>
		<value>localhost</value>
	</property>
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
	<property>
   		<name>yarn.scheduler.minimum-allocation-mb</name>
   		<value>2048</value>
	</property>

在这里插入图片描述
yarn.resourcemanager.localhost指定yarn的站点名称
yarn.nodemanager.aux-services指定辅助节点管理的服务，这里设为mapreduce_shuffle，才可启用mapreduce
yarn.scheduler.minimum-allocation-mb指定单个任务可申请的最少物理内存量，默认值是1024MB。可自行根据处理情况设定，这里设的2g，一般用不到这么多，不需要设。

----以临时mapred配置为基础建立mapred-site.xml并添加配置

cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml

	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>

在这里插入图片描述
mapreduce.framework.name设为yarn，是设置映射化简模型框架为yarn，以指定MR运行在yarn上

3、配置环境变量
执行vi /etc/profile，为hadoop添加环境变量

#HADOOP_HOME
export HADOOP_HOME=/opt/install/hadoop-2.6.0-cdh5.14.2
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME

执行source /etc/profile启用配置

4、启动
首先格式化NameNode，在hadoop对应的bin目录下执行hdfs namenode –format

cd /opt/install/hadoop-2.6.0-cdh5.14.2/bin
hdfs namenode -format

启动之前可以设置对自己的免密登录，以跳过输入密码的操作，具体操作可以看我的这篇博客：linux上，设置ssh免密登录，附原理说明
因为已经添加相关环境变量，这里直接执行start-all.sh即可启用hadoop

start-all.sh

之后执行jps可以看当前进程
在这里插入图片描述
想一次性全部关闭，可执行

stop-all.sh

这里也可以分布执行/opt/install/hadoop-2.6.0-cdh5.14.2/sbin目录下的start-hdfs.sh与start-yarn.sh分步的启动dfs和yarn，也能得到同样效果，这里不再演示了。

#到执行文件的目录下
cd /opt/install/hadoop-2.6.0-cdh5.14.2/sbin
#启动hdfs
./start-dfs.sh
#启动yarn
./start-yarn.sh
#关闭yarn
./stop-yarn.sh
#关闭hdfs
./stop-dfs.sh

D目录

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hadoop伪分布式安装、配置，详解

伪分布式安装hadoop，介绍相关配置文件。
复制链接

扫一扫

专栏目录