hadoop官方案例grep和wordCount实践

最新推荐文章于 2023-06-01 08:13:09 发布

Self-pity。

最新推荐文章于 2023-06-01 08:13:09 发布

阅读量824

点赞数 1

分类专栏： hadoop 文章标签： hadoop mapreduce 大数据

本文链接：https://blog.csdn.net/qq_45223614/article/details/106432388

版权

hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、GREP

grep的作用?

使用正则，从文件中匹配需要查找的字符并输出。

案例步骤

以下全部内容都在hadoop-3.2.1为基础目录下进行
1、准备工作

$ mkdir input
$ cp etc/hadoop/*.xml input/
$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar grep input output 'dfs[a-z.]+'

hadoop-mapreduce-examples-3.2.1.jar — 官方实例的一个jar包
grep --实例名称
input —输入目录
output —输出目录，不需要建立默认生成
‘dfs[a-z.]+’ 正则内容
2、执行

进入output目录，查看执行结果
其中，_SUCCESS 文件大小为0，主要是执行结果的一个标志文件。

2、wordCount

wordCount的作用?

从字面意思也很好理解，其实就是统计文本中的单词个数。

案例步骤

以下全部内容都在hadoop-3.2.1为基础目录下进行
1、准备工作

$ mkdir wcinput
$ cd wcinput/
$ vi wc.input

输入如下内容：

$ cat wc.input
zhangsan lisi wangwu zhaoliu
zhangsan wangwu
lisi
wuqi
sunba sunba

2、执行

$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount wcinput wcoutput

查看结果
_SUCCESS说明执行结果成功了！
part-r-00000文件中的统计结果与实际一致。

其他，如果output输出目录原本就存在的情况下，执行会报错，如下：
在这里插入图片描述

Self-pity。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录