大数据导论mapreduce小案例

最新推荐文章于 2024-11-22 21:27:09 发布

Maki K

最新推荐文章于 2024-11-22 21:27:09 发布

阅读量1.8k

点赞数 1

分类专栏： Java 文章标签： mapreduce linux

本文链接：https://blog.csdn.net/qq_40113690/article/details/106517515

版权

该博客通过一个简单的MapReduce案例，介绍了如何在Hadoop伪分布式环境下进行单词计数统计。首先，创建并填充input文件夹，包含三个文本文件。接着启动Hadoop服务，将文件上传到HDFS。然后，利用Eclipse编写并运行MapReduce程序，最终结果保存在HDFS的output目录下。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

要求
理解Hadoop中MapReduce模块的处理逻辑，熟悉MapReduce编程；

1）在电脑上新建文件夹input，并input文件夹中创建三个文本文件：file1.txt,file2.txt,file3.txt。三个文本文件的内容分别是：
file1.txt: hello dblab world
file2.txt: hello dblab hadoop
file3.txt: hello mapreduce
2）启动hadoop伪分布式，将input文件夹上传到HDFS上
3）编写mapreduce程序，实现单词出现次数统计（MapReduce的程序可以用Eclipse编译运行或使用命令行编译打包运行，使用其中一种即可）。统计结果保存到hdfs的output文件夹。
首先，先要打开Hadoop，查看Hadoop服务是否开启
在这里插入图片描述然后建立文件夹和文件，具体参考大数据技术原理与应用第三章分布式文件系统HDFS 学习指南中的目录操作和文件操作，然后打开eclipse，配置MapReduce,具体参考使用Eclipse编译运行MapReduce程序，打开eclipse，界面为

最低0.47元/天解锁文章