大数据导论mapreduce小案例

该博客通过一个简单的MapReduce案例,介绍了如何在Hadoop伪分布式环境下进行单词计数统计。首先,创建并填充input文件夹,包含三个文本文件。接着启动Hadoop服务,将文件上传到HDFS。然后,利用Eclipse编写并运行MapReduce程序,最终结果保存在HDFS的output目录下。
摘要由CSDN通过智能技术生成

要求
理解Hadoop中MapReduce模块的处理逻辑,熟悉MapReduce编程;

1) 在电脑上新建文件夹input,并input文件夹中创建三个文本文件:file1.txt,file2.txt,file3.txt。三个文本文件的内容分别是:
file1.txt: hello dblab world
file2.txt: hello dblab hadoop
file3.txt: hello mapreduce
2) 启动hadoop伪分布式,将input文件夹上传到HDFS上
3) 编写mapreduce程序,实现单词出现次数统计(MapReduce的程序可以用Eclipse编译运行或使用命令行编译打包运行,使用其中一种即可)。统计结果保存到hdfs的output文件夹。
首先,先要打开Hadoop,查看Hadoop服务是否开启
在这里插入图片描述然后建立文件夹和文件,具体参考大数据技术原理与应用 第三章 分布式文件系统HDFS 学习指南中的目录操作和文件操作,然后打开eclipse,配置MapReduce,具体参考使用Eclipse编译运行MapReduce程序,打开eclipse,界面为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值