文章目录
Hadoop运行模式包括:
(1) 本地模式 (开发不会用)
(2) 伪分布式模式 (开发不会用)
(3) 完全分布式模式 (重要开发一定是用这种模式)
虽然本地模式和伪分布式模式开发不会用,但为了感受一下Hadoop的魅力,还是简单介绍一下.
1 本地运行模式
如果成功安装了Hadoop 和配置java和Hadoop的环境变量,就不用再作配置了.直接可以用了.
1.1 官方Grep案例
Grep 和linux的命令的作用一样都是查找文件的字符串的,我们来用以下.
- 创建在hadoop-2.7.2文件下面创建一个input文件夹
- 将Hadoop的xml配置文件复制到input
[andy@xiaoai hadoop-2.7.2]$ cp etc/hadoop/*.xml inp
- 执行share目录下的MapReduce程序
[andy@xiaoai hadoop-2.7.2]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'
如果没有报错就是跑过了.
- 查看输出结果
执行成功之后我们可以看到Hadoop目录会新增加一个output文件夹.我们看一下output到底是什么?
[andy@xiaoai output]$ ls
part-r-00000 _SUCCESS
[andy@xiaoai output]$ cat part-r-00000
1 dfsadmin
[andy@xiaoai output]$
1.2 官方WordCount案例
wordcount 命令是统计词出现的次数的,我们来体验以下.
- 创建在hadoop-2.7.2文件下面创建一个wcinput文件夹
- 在wcinput文件下创建一个wc.input文件
- 在wc.input文件中输入以下内容
andy yarn
andy mapreduce
xiaoai
xiaoai
执行程序
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput
如下图:
[andy@xiaoai hadoop-2.7.2]$ cd wcoutput/
[andy@xiaoai wcoutput]$ ll
总用量 4
-rw-r--r--. 1 andy andy 35 2月 18 20:21 part-r-00000
-rw-r--r--. 1 andy andy 0 2月 18 20:21 _SUCCESS
[andy@xiaoai wcoutput]$ cat part-r-00000
andy 2
mapreduce 1
xiaoai 2
yarn 1
[andy@xiaoai wcoutput]$
它就会把每个词出现的次数给统计出来.
2 伪分布式模式
伪分布式模式就是在一台机器上运行Hadoop的相关模块,但实际情况是不会出现只有一台机器在运行,所以伪分布式模式在实际生产中是不会用的,所以才叫伪分布式模式,但不代表它没有用,伪分布式模式的配置可以让我们更好的理解Hadoop.
2.1 启动HDFS并运行MapReduce程序
2.1.1 分析
(1)配置集群
(2)启动、测试集群增、删、查
(3&#x