Hadoop伪分布式测试集群搭建总结

导语:Hadoop的搭建有三种方式,单机版适合开发调试;伪分布式版,适合模拟集群学习;完全分布式,生产使用的模式。因为我的电脑带不动三个虚拟机,所以没办法搭建三个节点的完全分布式集群,所以本文主要记录Hadoop伪分布式测试集群的搭建过程!

基于centos7+Hadoop2.7.5

一、安装虚拟机,以及配置centos7镜像,基本步骤省略,主要介绍相关网络配置

1、虚拟机编辑网络为以下模式

VMnet8IP地址:192.168.83.2

2、进入虚拟机,ip addr查看分配的ip地址

3、windows主机ping该网络

4、修改主机名为node01

5、修改域名解析映射文件使得后续可以直接通过主机名访问,sudo vi /etc/hosts

6、ping一波,测试是否生效

linux主机的配置已经全部完成,接下啦借助xshell连接至linux,借助winSCP上传文件至Linux环境中

二、安装JDK,配置环境变量

1、上传jdk至/usr/java目录下,如没有创建目录

2、配置环境变量:

3、source使其生效

4、查看jdk是否安装成功

三、安装Hadoop

1、下载hadoop-2.7.5,并上传至以下安装目录:/usr/local

2、配置hadoop-env.sh

3、配置core-site.xml:

vi core-site.xml,在configuration中添加各配置项

  •   配置默认采用的文件系统。----(由于存储层和运算层松耦合,要为它们指定使用hadoop原生的分布式文件系统hdfs。value填入的是uri,参数是 分布式集群中主节点的地址 : 指定端口号)
  • 配置hadoop的公共目录-----(指定hadoop进程运行中产生的数据存放的工作目录,NameNode、DataNode等就在本地工作目录下建子目录存放数据。但事实上在生产系统里,NameNode、DataNode等进程都应单独配置目录,而且配置的应该是磁盘挂载点,以方便挂载更多的磁盘扩展容量)

4、配置 hdfs-site.xml

vi hdfs-site.xml,配置hdfs的副本数---(客户端将文件存到hdfs的时候,会存放在多个副本。value一般指定3,但因为搭建的是伪分布式就只有一台机器,所以只能写1。)

5、配置 mapred-site.xml

vi mapred-site.xml---指定MapReduce程序应该放在哪个资源调度集群上运行。若不指定为yarn,那么MapReduce程序就只会在本地运行而非在整个集群中运行。

6、配置 yarn-site.xml,vi yarn-site.xml

1)指定yarn集群中的老大(就是本机)

2)配置yarn集群中的重节点,指定map产生的中间结果传递给reduce采用的机制是shuffle

7、配置环境变量PATH

8、设置防火墙

9、配置ssh免密登录

1)创建公钥、私钥,输入yes加回车,这里忘输入了,后面也可以输入yes

2)创建authorized_keys文件并修改权限为600

3)将公钥追加到authorized中

4)测试免密登录

四、启动Hadoop

1、初始化hadoop

2、测试是否启动成功

五、从windows环境进入hdfs和yarn集群相对应的web界面

1、HDFS:http://ip:50070

2、YARN:http://ip:8088

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
配置Hadoop分布式集群,可以按照以下步骤进行操作: 1. 安装和配置Java:确保机器上已经安装了Java Development Kit (JDK)。可以通过运行`java -version`命令来验证Java是否已安装。 2. 下载Hadoop:从Apache Hadoop官方网站(https://hadoop.apache.org/)下载所需版本的Hadoop。选择适合你的操作系统和需求的版本。 3. 解压缩Hadoop:将下载的Hadoop压缩包解压到一个适当的位置,例如`/opt/hadoop`。 4. 配置环境变量:编辑`~/.bashrc`文件并添加以下行来设置Hadoop的环境变量: ``` export HADOOP_HOME=/opt/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin ``` 保存文件后运行`source ~/.bashrc`使修改生效。 5. 配置Hadoop:以下是一些关键配置文件的说明: - `core-site.xml`:配置Hadoop核心参数,如文件系统、端口和日志路径等。 - `hdfs-site.xml`:配置HDFS(分布式文件系统)相关参数,如副本数量、数据块大小和数据目录等。 - `mapred-site.xml`:配置MapReduce相关参数,如任务跟踪器和任务分配器等。 - `yarn-site.xml`:配置YARN(资源管理器)相关参数,如资源分配、应用程序调度和容器管理等。 根据你的需求和集群规模,修改以上配置文件中的属性值。 6. 配置主机名映射:在每台机器的`/etc/hosts`文件中,将本地主机名(如`localhost`)映射到本地IP地址(如`127.0.0.1`)。这样可以确保每台机器能够通过主机名相互访问。 7. 配置SSH免密登录:为了在集群中进行节点间的通信,需要配置SSH免密登录。使用`ssh-keygen`生成密钥对,并将公钥分发到所有节点的`~/.ssh/authorized_keys`文件中。 8. 格式化HDFS:在单个节点上运行以下命令来格式化HDFS: ``` hdfs namenode -format ``` 9. 启动Hadoop分布式集群:运行以下命令来启动Hadoop分布式集群: ``` start-dfs.sh start-yarn.sh ``` 10. 验证集群:使用Hadoop自带的命令行工具(如`hdfs dfs -ls /`)来验证集群是否正常工作。你还可以通过Web界面(如http://localhost:50070)来查看Hadoop集群的状态和信息。 这些步骤将帮助你配置一个Hadoop分布式集群,让你能够在单个机器上模拟分布式环境进行开发和测试。根据需要,你可能还需要进行其他设置和调整。可以参考Hadoop官方文档和相关资源,以获取更详细的配置指南和实践建议。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值