CentOS安装Hadoop伪分布式模式服务器

最新推荐文章于 2025-06-12 19:47:50 发布

梦幻乐园

最新推荐文章于 2025-06-12 19:47:50 发布

阅读量125

点赞数

文章标签：分布式服务器 centos

本文链接：https://blog.csdn.net/git_database727/article/details/133602060

版权

服务器专栏收录该内容

77 篇文章 ¥59.90 ¥99.00

订阅专栏

本文详述如何在CentOS系统中安装和配置Hadoop伪分布式模式，包括安装Java、下载Hadoop、配置环境变量、修改Hadoop配置文件、格式化HDFS、启动Hadoop以及验证安装成功的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hadoop是一个开源的分布式计算框架，可以用于存储和处理大规模数据。在CentOS上安装Hadoop并配置为伪分布式模式服务器，可以让我们在单个节点上模拟分布式环境的功能。本文将详细介绍在CentOS上安装和配置Hadoop伪分布式模式服务器的步骤。

步骤1：安装Java

在开始安装Hadoop之前，首先要确保系统上安装了Java。执行以下命令来安装Java：

sudo yum install java-1.8.0-openjdk-devel

步骤2：下载和解压Hadoop

在安装Hadoop之前，我们需要从官方网站下载Hadoop的二进制文件。打开终端并执行以下命令：

wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz
tar xzf hadoop-3.3.0.tar.gz

步骤3：配置环境变量

打开~/.bashrc文件，并添加以下行：

export HADOOP_HOME=/path/to/hadoop-3.3.0
export PATH=$PATH:$HADOOP_HOME/bin

然后执行以下命令使环境变量生效：

source ~/.bash

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

梦幻乐园

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

centos搭建hadoop伪分布式

程序媛

05-09

1334

说明：首先楼主这里是已经安装过hadoop本地模式了，安装配置hadoop本地模式可以参考楼主的另一篇博客：https://blog.csdn.net/weixin_37590454/article/details/88555255 所以我这里接着本地模式往下走。一、hadoop伪分布式配置前的准备工作： 1.找到你的hadoop安装目录，我这里是已经进入到安装目录下：（个人爱好吧，我的软...

【linux】CentOS8 Hadoop伪分布式环境搭建（三台节点机）

weixin_45788900的博客

11-05

3788

文章目录前言一、伪分布式集群分别是什么？二、安装Hadoop三、伪分布式环境搭建四、启动Hadoop五、添加两个节点机前言 1.本篇文章主要参考博客：点击进入，整合了伪分布的环境搭建和一些踩坑事项。2.环境搭建的节点机一共三台：pc1，pc2，pc3 ，其中pc1为管理机，三台节点机都使用用户Sillyhumans，如果你三台机器的用户名不一样，下面配置地址的时候可能要略作修改。3.关闭防火墙后操作一、伪分布式集群分别是什么？简单来说就是一台机器上模拟多台机器的集成分布（假装自己有多台服务器） .

参与评论您还未登录，请先登录后发表或查看评论

centos安装Hadoop伪分布

qq_73915074的博客

10-29

436

配置centos7虚拟机，参考文章新配置的centos环境需要换源，我用的是阿里云的镜像源查看 cat CentOs-Base.repo执行yum换源命令准备安装包链接：https://pan.baidu.com/s/1C_9J4vR8DrChPLPZDUT7hA?pwd=5566提取码：5566。

vmWare虚拟环境centos7安装Hadoop 伪分布式实践

keep_learn的专栏

11-17

1763

背景：近期在研发大数据中台，需要研究Hadoop hive 的各种特性，需要搭建一个Hadoop的虚拟环境，本来想着使用dock ，但突然发现docker 公共仓库的镜像被XX 了，无奈重新使用vm 搭建虚拟机。大概经历了6个小时完成hadoop 3.3.6 环境的搭建，分享步骤给大家，需要搭建好的虚拟机镜像私信联系，提供百度网盘下载链接。(需要请一杯奶茶)。操作系统版本：centos 7本次实践实践2024年，未来2年内有效。

CentOS7下安装Hadoop伪分布式

大头皮鞋的博客

03-21

8875

前提条件拥有CentOS7服务器版环境软件版本说明 jdk1.8 hadoop2.7.3 虚拟机环境准备通网络能ping通外网，例如： ping baidu.com 如果ping不通，可以修改如下文件： vim /etc/sysconfig/network-scripts/ifcfg-ens33 将ONBOOT=no改为ONBOOT=yes 重启网络或重启机器重启网络 systemctl restart network 重启机器 reboot 修

Hadoop 伪分布式安装详解：定义、步骤与适用场景

m0_63329404的博客

04-17

2673

Hadoop 伪分布式安装是一种在单台物理机器上模拟分布式集群环境的部署方式。分布式服务启用：运行 Hadoop 的所有核心组件（如 HDFS 的 NameNode、DataNode，YARN 的 ResourceManager、NodeManager 等），但所有组件均部署在同一台主机上。模拟集群行为：通过配置让各组件以 “伪分布式” 模式运行，节点间通过本地环回地址（localhost）通信，完全模拟真实分布式集群的交互逻辑。轻量易部署。

Hadoop伪分布式搭建

Hello World

08-02

1837

伪分布式模式也是在一台单机上运行，集群中的结点由一个NameNode和若干个DataNode组，另有一个SecondaryNameNode作为NameNode的备份。一个机器上，既当namenode，又当datanode,或者说既是jobtracker，又是tasktracker。没有所谓的在多台机器上进行真正的分布式计算，故称为"伪分布式"。开启多个进程模拟完全分布式，但是并没有真正提高程序执行的效率。

CentOS下Hadoop伪分布式集群的搭建(超详细)

m0_49405757的博客

11-29

3222

1、环境准备 jdk1.8 下载地址：https://www.oracle.com/java/technologies/downloads/#java8 进入官网如下图所示，选择自己合适的安装包下载即可 hadoop安装包下载地址：https://hadoop.apache.org/releases.html 进入官网如下图所示，选择自己合适的版本下载即可安装ssh服务进入服务器中，输入如下命令，查看是否

Linux系统下的Hadoop伪分布式部署（图文版）

Rookie_10的博客

12-29

927

本篇为Hadoop伪分布式部署的图文教程，安装的Hadoop版本为2.6版本。

centos7安装hadoop伪分布式系统(4)之04安装hadoop伪分布式集群

wangshuile的博客

03-01

499

1上传解压hadoop安装文件配置env /HADOOP：表示hadoop的安装文件 cd /home/hadoop/bigdater/hadoop/etc/hadoop 1.1修改hadoop文件夹etc下的hadoop-env.sh export JAVA_HOME=${JAVA_HOME}改成export JAVA_HOME=/opt/jdk 添加 export HADOOP...

Hadoop单机伪分布式及相应组件的搭建

m0_74749094的博客

04-23

1056

具体配置请查看：搭建Hadoop准备工作：网络配置、修改主机名、修改网络映射、Ping外网、连接xshell网络配置文件 /etc/sysconfig/network-scripts/ifcfg-eth0vi /etc/sysconfig/network-scripts/ifcfg-eth0注意：CentOS7和8里面，网络配置文件为：/etc/sysconfig/network-scripts/ifcfg-ens33主机名配置文件 /etc/sysconfig/network，修改HOSTNAME=主机名

分布式ID实现方案实战示例总结

bsklhao的博客

06-11

904

根据业务需求、系统架构和性能要求，选择合适的分布式ID生成方案。否则，重新获取新的号段。

数据网格的革命：从集中式到分布式的数据管理新范式

kevin_blog

06-08

1755

在信息技术（IT）的飞速演进中，一种全新的数据管理理念正悄然改变企业的运作方式——数据网格（Data Mesh）。2025年，随着数据量的爆炸式增长、跨团队协作需求的激增以及传统集中式数据架构的瓶颈暴露，数据网格以其分布式、领域驱动的特性迅速崛起。它将数据管理从单一的“数据湖”拆分为由各业务团队自治的领域数据，极大地提升了数据的可访问性和敏捷性。

看安科瑞分布式光伏解决方案如何破解光伏痛点？

acrel15821596221的博客

06-11

821

通过Acrel-1000DP分布式光伏监控系统平台即可对用户光伏发电、用电进行集中监控、统一调度、统一运维，满足用户可靠、安全、节约、高效、有序用电的要求。随着 “双碳” 目标推进，分布式光伏发展迅速，但光伏配电房存在监控分散、数据孤岛、安全隐患及运维成本高等问题，客户对于光伏系统的管理有集中监控、智能分析、主动防护、远程运维及合规并网等需求。分布式光伏发电系统的基本设备包括光伏电池组件、光伏方阵支架、直流汇流箱、直流配电柜、并网逆变器、交流配电柜等设备，另外还有供电系统监控装置和环境监测装置。

分布式I/O在食品包装行业中的应用

Mindtech_link的博客

06-11

403

食品包装自动化生产线面临设备分散、布线复杂和信号干扰等挑战。明达技术的MR30分布式IO模块通过分布式设计和单线通信，简化布线并提升信号处理稳定性。

ABP vNext + HBase：打造超高吞吐分布式列式数据库

Kookoos的博客

06-09

848

该方案基于ABP vNext框架与HBase列式数据库，实现了亿级数据写入与毫秒级查询能力。系统提供多种安全认证方式（HTTP Basic/Bearer/Kerberos+SPNEGO），支持丰富的DSL查询表达式和异步数据扫描功能。架构优化包括行键防热点、列簇压缩、TTL等特性，并实现了一键Docker/Kubernetes部署。系统还集成了OpenTelemetry链路追踪、Prometheus指标监控，以及全面的测试方案（单元/集成测试）。适用于物联网时序数据、日志采集和用户画像等大规模数据存储场景。

分布式MQTT客户端看门狗机制设计与实现

最新发布

dhdhd78273的博客

06-12

489

在传统的微服务集群部署中，每个服务实例都可能需要连接MQTT服务器处理设备消息。的机制，确保在任意时刻只有一个节点负责MQTT连接和消息处理，同时保证服务的高可用性。

谷粒商城-分布式微服务 -集群部署篇[一]

2302_80480374的博客

06-11

1051

KubeSphere 是一款面向云原生设计的开源项目，在目前主流容器调度平台 Kubernetes 之上构建的分布式多租户容器管理平台，提供简单易用的操作界面以及向导式操作方式，在降低用户使用容器调度平台学习成本的同时，极大降低开发、测试、运维的日常工作的复杂度。

centos7 hadoop伪分布式安装过程

06-11

### CentOS 7 Hadoop伪分布式安装教程在CentOS 7上安装Hadoop伪分布式环境，需要完成以下几个关键步骤：配置Java开发环境、下载并解压Hadoop安装包、配置Hadoop相关文件以及启动Hadoop服务。以下是详细的安装步骤： #### 1. 配置Java开发环境 Hadoop依赖于Java运行时环境（JRE）或Java开发工具包（JDK）。首先需要安装JDK，并确保其正确配置。 - 使用以下命令安装OpenJDK： ```bash sudo yum install java-1.8.0-openjdk-devel ``` - 检查Java是否安装成功： ```bash java -version ``` 如果输出显示Java版本信息，则说明安装成功[^3]。 - 配置环境变量，在`/etc/profile`文件中添加以下内容： ```bash export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk export PATH=$JAVA_HOME/bin:$PATH ``` 使配置生效： ```bash source /etc/profile ``` #### 2. 下载并解压Hadoop安装包从Apache官网下载Hadoop安装包，并将其解压到指定目录。 - 创建安装目录： ```bash mkdir -p /opt/soft cd /opt/soft ``` - 下载Hadoop安装包（以Hadoop 2.7.7为例）： ```bash wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz ``` - 解压安装包： ```bash tar -zxvf hadoop-2.7.7.tar.gz -C ../app/ ``` - 重命名解压后的文件夹以便后续操作： ```bash cd ../app mv hadoop-2.7.7 hadoop ``` #### 3. 配置Hadoop环境变量为了方便使用Hadoop命令，需要将其加入系统环境变量。 - 编辑`/etc/profile`文件，添加以下内容： ```bash export HADOOP_HOME=/opt/app/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin ``` - 使配置生效： ```bash source /etc/profile ``` #### 4. 修改Hadoop配置文件 Hadoop的伪分布式模式需要修改几个重要的配置文件，包括`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`和`yarn-site.xml`。 - 进入Hadoop配置目录： ```bash cd /opt/app/hadoop/etc/hadoop/ ``` - **core-site.xml**：配置HDFS的默认存储路径。 ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> ``` - **hdfs-site.xml**：配置HDFS的副本数量。 ```xml <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> ``` - **mapred-site.xml**：配置MapReduce框架为YARN。 ```xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> ``` - **yarn-site.xml**：配置YARN的相关参数。 ```xml <configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> ``` #### 5. 格式化HDFS 在启动Hadoop之前，需要对HDFS进行格式化。 - 执行以下命令： ```bash hdfs namenode -format ``` #### 6. 启动Hadoop服务启动Hadoop伪分布式环境的服务。 - 启动HDFS： ```bash start-dfs.sh ``` - 启动YARN： ```bash start-yarn.sh ``` - 验证服务是否启动成功： ```bash jps ``` 应该能看到以下进程：`NameNode`、`DataNode`、`ResourceManager` 和 `NodeManager`[^2]。 #### 7. 测试Hadoop伪分布式环境可以通过执行一个简单的WordCount程序来测试Hadoop伪分布式环境是否正常工作。 - 创建输入文件并上传到HDFS： ```bash echo "Hello Hadoop" > input.txt hdfs dfs -mkdir /input hdfs dfs -put input.txt /input ``` - 执行WordCount示例程序： ```bash hadoop jar /opt/app/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /input /output ``` - 查看输出结果： ```bash hdfs dfs -cat /output/part-r-00000 ``` --- ### 注意事项 - 确保防火墙不会阻止Hadoop服务的端口（如9000、50070等）。 - 如果遇到权限问题，可以尝试将Hadoop目录的所有权赋予当前用户： ```bash chown -R $USER:$USER /opt/app/hadoop ``` ---