Hadoop 自带WordCount 操作步骤

最新推荐文章于 2024-05-22 08:42:12 发布

Rain-晴天

最新推荐文章于 2024-05-22 08:42:12 发布

阅读量2.6k

点赞数 1

本文链接：https://blog.csdn.net/rain_qingtian/article/details/69791799

版权

本文介绍了如何利用Hadoop自带的WordCount程序处理文本数据。首先，通过hadoop fs命令上传数据到HDFS，接着将test1.txt文件放入指定目录。然后，使用hadoop jar命令运行WordCount示例，指定输入和输出路径。最后，展示如何通过hadoop dfs命令查看处理后的结果。

摘要由CSDN通过智能技术生成

运行一个wordcount 任务的命令：bin/hadoop jar /usr/hddemo/wordcount.jar 包名.WordCount input output

说明：input 指定的是执行map任务是的数据源所在目录，output 是指定reduce任务执行完后将结果输出的目录

data在配置文件配完后是不需要见这个目录的
name目录是执行 hadoop namenode -format 才会生成的目录，也不是我们手动建的;

countworld的基本流程

在linux一个input目录下见两个文件
echo "Hello world Hello me! cwq solo" >test1.txt
echo " Hello world Hello you! solo" >test2.txt

hadoop fs -put /input/ /input

bin/hadoop jar /usr/hddemo/wordcount.jar 包名.WordCount input output
2.6以后的版本不用指定类名
bin/hadoop jar /usr/hddemo/wordcount.jar input output

Hadoop自带的运行 wordcount 例子的 jar 包在
/share/hadoop/mapreduce/hadoop-mapreduce-example.jar
用这个包要这样写

hadoop jar /home/yanzefeng/apps/hadoop-2.6.4/share/hadoop/mapreduce/hadoop-mapr

最低0.47元/天解锁文章

Rain-晴天

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hadoop 自带WordCount 操作步骤

运行一个wordcount 任务的命令：bin/hadoop jar /usr/hddemo/wordcount.jar 包名.WordCount input output说明：input 指定的是执行map任务是的数据源所在目录，output 是指定reduce任务执行完后将结果输出的目录data在配置文件配完后是不需要见这个目录的name目录是执行 hadoop
复制链接

扫一扫