入门-Hadoop运行环境搭建(单机)及运行模式

最新推荐文章于 2024-04-27 21:15:40 发布

青岛欢迎您

最新推荐文章于 2024-04-27 21:15:40 发布

阅读量379

点赞数 1

分类专栏：大数据文章标签： hadoop Hadoop运行环境搭建

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liberty12345678/article/details/84028830

版权

大数据专栏收录该内容

34 篇文章 0 订阅

订阅专栏

1、准备工作：

阿里云服务器：

操作系统:linux CentOS 7.4 64位
Cpu：1核
内存：2G
硬盘:40G
ip:47.105.***.***

jdk-8u60-linux-x64.tar.gz

hadoop-2.7.2.tar.gz

2、环境搭建步骤：

2.1、首先更改主机名，目的是为了方便管理

添加IP和主机名映射(vim /etc/hosts),在配置文件中使用主机名的话，这个映射必须加。必须使用私有地址

注:主机名称更改之后，要重启(reboot)才会生效。

2.2、关闭防火墙

2.3、在opt下创建文件夹

2.4、安装JDK

解压jdk到/opt/module目录下

配置jdk环境变量

打开/etc/profile 文件,在 profie 文件末尾添加 jdk 路径：

让修改后的文件生效：

测试安装成功

2.5、安装Hadoop

解压hadoop文件到/opt/module下面

在/opt/module/hadoop-2.7.2/etc/hadoop 路径下配置 hadoop-env.sh

将hadoop添加到环境变量,打开/etc/profile 文件(vi /etc/profile),在 profie 文件末尾添加 jdk 路径.

让修改后的文件生效：

3、运行模式：

Hadoop 运行模式：

（1）本地模式（默认模式）：不需要启用单独进程，直接可以运行，测试和开发时使用。

（2）伪分布式模式：等同于完全分布式，只有一个节点。

（3）完全分布式模式：多个节点一起运行。

4、本地模式

4.1、官方grep案例

创建在 hadoop-2.7.2 文件下面创建一个 input 文件夹

将 hadoop 的 xml 配置文件复制到 input

执行 share 目录下的 mapreduce 程序(将input下所有dfs开头a-z接续的文件都拷贝到output下)

查看输出结果(output下有2个文件,一个是存放内容的,一个是成功标记文件)

4.2、官方wordcount案例

创建在 hadoop-2.7.2 文件下面创建一个 wcinput 文件夹,在 wcinput 文件下创建一个 wc.input 文件

编辑vim wc.input 文件,输入如下内容

hadoop yarn

hadoop mapreduce

atguigu

atguigu

回到 hadoop 目录/opt/module/hadoop-2.7.2,执行以下命令：

查看结果(统计出每个单词的个数)

5、伪分布式模式(只有一个节点)

5.1、启动 HDFS 并运行 MapReduce 程序

除了完成以上环境搭建后还需要完成以下几步：

5.1.1、配置集群

1)、配置：hadoop-env.sh

2)、配置：core-site.xml

3)、配置：hdfs-site.xml

5.1.2、启动集群

1)、格式化 namenode（第一次启动时格式化，以后就不要总格式化）

2)、启动 namenode

3)、启动 datanode

5.1.3、查看集群

1)、查看是否启动成功

2)、查看产生的 log 日志

3)、Web端查看hdfs文件系统

5.1.4、操作集群

1)、在 hdfs 文件系统上创建一个 input 文件夹

2)、将测试文件内容上传到文件系统上

注：wcinput/wc.input为本地文件目录，/user/root/input为hdfs文件节点目录。

本地运行时使用的本地文件，而hadoop运行时要使用hdfs文件。

3)、运行 mapreduce 程序

4)、查看输出结果

命令行查看：

浏览器查看：

5)、将测试文件内容下载到本地

6)、删除输出结果

5.2、YARN 上运行 MapReduce 程序

除了完成以上环境搭建后还需要完成以下几步：

5.2.1、配置集群

1)、配置 yarn-env.sh和mapred-env.sh

2)、配置：yarn-site.xml

3)、配置： (对 mapred-site.xml.template 重新命名为) mapred-site.xml

vi mapred-site.xml

5.2.2、启动集群

启动resourcemanager和nodemanager

5.2.3、集群操作

1)、yarn 的浏览器页面查看

2)、删除文件系统上的 output 文件

3)、执行 mapreduce 程序

注：此时跑的与之前的不同，控制台打印内容不同，此时时真正的mr资源调用.

4)、查看运行结果

5.3、配置文件说明

Hadoop 配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。

1)、默认配置文件：存放在 hadoop 相应的 jar 包中

[core-default.xml]

hadoop-common-2.7.2.jar/ core-default.xml

[hdfs-default.xml]

hadoop-hdfs-2.7.2.jar/ hdfs-default.xml

[yarn-default.xml]

hadoop-yarn-common-2.7.2.jar/ yarn-default.xml

[core-default.xml]

hadoop-mapreduce-client-core-2.7.2.jar/ core-default.xm

2)、自定义配置文件：存放在$HADOOP_HOME/etc/hadoop

core-site.xml

hdfs-site.xml

yarn-site.xml

mapred-site.xml

青岛欢迎您

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
入门-Hadoop运行环境搭建(单机)及运行模式

1、准备工作：阿里云服务器：操作系统:linux CentOS 7.4 64位Cpu：1核内存：2G硬盘:40Gip:47.105.***.***jdk-8u60-linux-x64.tar.gzhadoop-2.7.2.tar.gz2、环境搭建步骤：2.1、首先更改主机名，目的是为了方便管理添加IP和主机名映射(vim /etc/hosts),在配置文...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。