hadoop官方案例grep和wordCount实践

1、GREP

grep的作用?

使用正则,从文件中匹配需要查找的字符并输出。

案例步骤

以下全部内容都在hadoop-3.2.1为基础目录下进行
1、准备工作

$ mkdir input
$ cp etc/hadoop/*.xml input/
$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar grep input output 'dfs[a-z.]+'

hadoop-mapreduce-examples-3.2.1.jar — 官方实例的一个jar包
grep --实例名称
input —输入目录
output —输出目录,不需要建立默认生成
‘dfs[a-z.]+’ 正则内容
2、执行
执行结果
进入output目录,查看执行结果
其中,_SUCCESS 文件大小为0,主要是执行结果的一个标志文件。

2、wordCount

wordCount的作用?

从字面意思也很好理解,其实就是统计文本中的单词个数。

案例步骤

以下全部内容都在hadoop-3.2.1为基础目录下进行
1、准备工作

$ mkdir wcinput
$ cd wcinput/
$ vi wc.input

输入如下内容:

$ cat wc.input
zhangsan lisi wangwu zhaoliu
zhangsan wangwu
lisi
wuqi
sunba sunba

2、执行

$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount wcinput wcoutput

执行结果
查看结果
_SUCCESS说明执行结果成功了!
part-r-00000文件中的统计结果与实际一致。

其他,如果output输出目录原本就存在的情况下,执行会报错,如下:
在这里插入图片描述

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值