1、GREP
grep的作用?
使用正则,从文件中匹配需要查找的字符并输出。
案例步骤
以下全部内容都在hadoop-3.2.1为基础目录下进行
1、准备工作
$ mkdir input
$ cp etc/hadoop/*.xml input/
$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar grep input output 'dfs[a-z.]+'
hadoop-mapreduce-examples-3.2.1.jar — 官方实例的一个jar包
grep --实例名称
input —输入目录
output —输出目录,不需要建立默认生成
‘dfs[a-z.]+’ 正则内容
2、执行
其中,_SUCCESS 文件大小为0,主要是执行结果的一个标志文件。
2、wordCount
wordCount的作用?
从字面意思也很好理解,其实就是统计文本中的单词个数。
案例步骤
以下全部内容都在hadoop-3.2.1为基础目录下进行
1、准备工作
$ mkdir wcinput
$ cd wcinput/
$ vi wc.input
输入如下内容:
$ cat wc.input
zhangsan lisi wangwu zhaoliu
zhangsan wangwu
lisi
wuqi
sunba sunba
2、执行
$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount wcinput wcoutput
_SUCCESS说明执行结果成功了!
part-r-00000文件中的统计结果与实际一致。
其他,如果output输出目录原本就存在的情况下,执行会报错,如下: