hadoop伪分布式安装、配置,详解

本文详述如何在CentOS7上安装Hadoop2.6.0进行伪分布式配置。步骤包括:安装前准备,如安装JDK和下载Hadoop;修改配置文件,如hadoop-env.sh、core-site.xml、hdfs-site.xml、yarn-site.xml和mapred-site.xml;设置环境变量;最后进行Hadoop的启动和关闭操作。
摘要由CSDN通过智能技术生成

本例在centos7上安装hadoop2.6.0。


1、准备虚拟机,安装jdk,下载安装软件
安装虚拟机可以参考:虚拟机安装linux、配置网络、连接xshell
安装jdk可以参考:linux安装jdk,详解
本文使用hadoop-2.6.0-cdh5.14.2,可用下载链接。其它的cdh版本的相关软件可到此选择下载:http://archive.cloudera.com/cdh5/cdh/5/

我这里在/opt下创建了software和install文件夹用以存放下载的压缩包和解压后的文件
把下载的包放到software里后,进入software文件夹,加压文件到install文件夹中

cd /opt/software
tar zxf hadoop-2.6.0-cdh5.14.2.tar.gz -C /opt/install/

为了方便,我还把虚拟机的地址添加到**/etc/hosts**里了
在这里插入图片描述

2、修改配置文件
进入hadoop配置文件夹

cd /opt/install/hadoop-2.6.0-cdh5.14.2/etc/hadoop/

大致需要修改的文件如图
在这里插入图片描述
在这里插入图片描述
----在hadoop-env.sh内修改JAVA_HOME的路径
在这里插入图片描述
----在core-site.xml中添加配置

	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://hadoop1:9000</value>
	</property>
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/install/hadoop-2.6.0-cdh5.14.2/data/tmp</value>
	</property>

在这里插入图片描述
fs.defaultFS指定文件系统位置,其实指定namenode接受心跳信息的端口。这里配置的就是本机ip:9000,因为我之前就在/etc/hosts文件已经添加过本机ip和对应主机名,所以直接写的hadoop1:9000
hadoop.tmp.dir指定hadoop运行时产生文件的存储目录。默认目录指向的是/tmp,而系统重启时会自动删除/tmp目录下的文件,就会导致之前的很多操作被删除,故重新设置文件夹给它

----在hdfs-site.xml里添加配置

	<property>
		<name>dfs.replication</name>
		<value>1</value>
	</property>

在这里插入图片描述
dfs.replication指定存文件的副本数

----在yarn-site.xml里添加配置

	<property>
		<name>yarn.resourcemanager.localhost</name>
		<value>localhost</value>
	</property>
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
	<property>
   		<name>yarn.scheduler.minimum-allocation-mb</name>
   		<value>2048</value>
	</property>

在这里插入图片描述
yarn.resourcemanager.localhost指定yarn的站点名称
yarn.nodemanager.aux-services指定辅助节点管理的服务,这里设为mapreduce_shuffle,才可启用mapreduce
yarn.scheduler.minimum-allocation-mb指定单个任务可申请的最少物理内存量,默认值是1024MB。可自行根据处理情况设定,这里设的2g,一般用不到这么多,不需要设。

----以临时mapred配置为基础建立mapred-site.xml并添加配置

cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>

在这里插入图片描述
mapreduce.framework.name设为yarn,是设置映射化简模型框架为yarn,以指定MR运行在yarn上

3、配置环境变量
执行vi /etc/profile,为hadoop添加环境变量

#HADOOP_HOME
export HADOOP_HOME=/opt/install/hadoop-2.6.0-cdh5.14.2
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME

执行source /etc/profile启用配置

4、启动
首先格式化NameNode,在hadoop对应的bin目录下执行hdfs namenode –format

cd /opt/install/hadoop-2.6.0-cdh5.14.2/bin
hdfs namenode -format

启动之前可以设置对自己的免密登录,以跳过输入密码的操作,具体操作可以看我的这篇博客:linux上,设置ssh免密登录,附原理说明
因为已经添加相关环境变量,这里直接执行start-all.sh即可启用hadoop

start-all.sh

之后执行jps可以看当前进程
在这里插入图片描述
想一次性全部关闭,可执行

stop-all.sh

这里也可以分布执行/opt/install/hadoop-2.6.0-cdh5.14.2/sbin目录下的start-hdfs.sh与start-yarn.sh分步的启动dfs和yarn,也能得到同样效果,这里不再演示了。

#到执行文件的目录下
cd /opt/install/hadoop-2.6.0-cdh5.14.2/sbin
#启动hdfs
./start-dfs.sh
#启动yarn
./start-yarn.sh
#关闭yarn
./stop-yarn.sh
#关闭hdfs
./stop-dfs.sh
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值