配置Hadoop伪分布式模式并运行WordCount示例操作实例演示步骤

本博客详细介绍了如何在已成功搭建的Hadoop单机模式基础上,配置伪分布式环境。从创建配置文件目录、编辑core-site.xml、hdfs-site.xml和mapred-site.xml开始,逐步讲解了namenode的格式化、服务启动与监控页面的查看。接着,通过在伪分布式平台上运行WordCount示例,包括创建input目录、上传文件、执行程序和查看结果。最后,指导如何关闭Hadoop服务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

该篇博客是基于hadoop单机模式的构建成功的前提下,进行直接操作的,关于 

hadoop单机模式的构建可以参考为上一篇博文:http://blog.csdn.net/henni_719/article/details/77718642

PS:全程以root的角色进行配置安装

第一部分:伪分布式配置

伪分布模式主要涉及一下配置信息:
(1)修改hadoop的核心配置文件core-site.xml,主要配置hdfs的地址和端口号。
(2)修改hadoop中hdfs的配置文件hdfs-site.xml,只要配置replication(复制或备份)。
(3)修改hadoop中MapReduce的配置文件mapred-site.xml,主要配置JobTracker的地址和端口。
具体的操作步骤如下:

step_1:创建几个配置文件需要的目录,执行截图如下:



Step_2:配置core-site.xml文件

进入到相关目录下,打开core-site.xml文件,操作截图如下:
### 配置 Hadoop 伪分布式环境 为了配置 Hadoop伪分布式模式,在 `/usr/local/hadoop/etc/hadoop/` 或者其他指定位置如 `/home/byy/app/hadoop/etc/hadoop/` 中有两个主要的 XML 文件需要编辑:`core-site.xml` 和 `hdfs-site.xml`[^1][^2]。 #### 修改 core-site.xml 此文件用于定义核心参数,对于伪分布式的设置来说,主要是指明 NameNode 的地址: ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> ``` 上述代码片段展示了如何通过设定属性 `fs.defaultFS` 来指向本地主机作为默认文件系统的名称节点服务。 #### 修改 hdfs-site.xml 该文件用来描述 HDFS 特定的行为。在单节点集群上运行时,通常会增加副本数量以便测试数据冗余功能: ```xml <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> ``` 这里设置了 `dfs.replication` 属性为 1 表示只保留一份拷贝,这适合于开发环境中减少磁盘空间占用的情况。 另外还需要注意的是 JAVA_HOME 显性配置问题,确保 Hadoop 能够找到 Java 安装目录是非常重要的。可以在 hadoop-env.sh 文件里加入如下行来完成这项工作: ```bash export JAVA_HOME=/path/to/java ``` 请替换 `/path/to/java` 成实际安装路径。 ### 启动 Hadoop 执行 grep 实例 启动之前先格式化 namenode (只需首次操作): ```bash $ $HADOOP_HOME/bin/hdfs namenode -format ``` 接着依次启动 Namenode 和 Datanode 进程: ```bash $ $HADOOP_HOME/sbin/start-dfs.sh ``` 之后可以通过 jps 命令验证进程是否正常启动;如果一切顺利,则可以准备输入和输出目录,上传一些文本文件到 HDFS 上供后续处理使用。 最后编写 MapReduce 程序或者利用自带的例子来进行调试。例如,要运行内置的 wordcount 或者 grep 示例程序,可按照下面的方式调用命令行工具: ```bash # 将样本文件放入 HDFS $ bin/hdfs dfs -put etc/hadoop input # 执行 Grep 示例 $ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+' ``` 以上命令将会读取名为 “input” 的目录下的所有文档,寻找匹配正则表达式 `'dfs[a-z.]+'` 的单词将结果保存至 “output” 目录中。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

WEL测试

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值