hadoop 伪分布式1g内存_Hadoop1 介绍（伪分布式集群搭建）

最新推荐文章于 2022-10-27 15:39:29 发布

架构光影师

最新推荐文章于 2022-10-27 15:39:29 发布

阅读量122

点赞数

文章标签： hadoop 伪分布式1g内存

本文链接：https://blog.csdn.net/weixin_30366107/article/details/112156782

版权

Hadoop介绍

1 定义

Hadoop是一个由Apache基金会所开发的分布式系统基础架构

2 解决问题

海量数据的存储和海量数据的分析计算问题。

3 三大发行版本

Apache：最基础，对于入门学习最好

Cloudera：在大型互联网企业中用的较多

Hortonworks：文档较好

4 Hadoop的优势

高可靠性：Hadoop底层维护了多个副本（默认为3个），所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。
高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。（增加服务器时不用把系统停下来）
高效性：在MapReduce的思想下，Hadoop是并行工作的（多个服务器一起计算），以加快任务处理的速度。
高容错性：能够自动将失败的任务重新分配。

5 Hadoop的组成

Hadoop1.x和2.x的区别

| Hadoop1.x的组成 | Hadoop2.x的组成 | | -------------------------- | ------------------ | | Common（辅助工具） | Common（辅助工具） | | HDFS（数据存储） | HDFS（数据存储） | | MapReduce（计算+资源调度） | Yarn（资源调度） |

1.x中MapReduce需要同时负责计算和资源调度

2.x中Yarn负责资源调度，MapReduce负责计算

HDFS

NameNode（nn）: 存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode。
(相当于是目录)
DataNoade（dn）：在本地文件系统存储块数据，以及块数据的校验和。具体的内容
Secondary NameNode（2nn）：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。
(用来辅助NameNode工作)

YARN架构概述

Resource Manager相当于部门经理，负责整个部门的运行
NodeManager是单节点的负责对象。
App Mstr相当于项目经理，负责某个项目。负责在集群上某一个任务的协调
Container是YARN中的资源抽象，它封装了某个节点的多维度资源，如内存、CPU、磁盘、网络等（虚拟化技术）

MapReduce架构概述

MapReduce将计算过程分为两个阶段：Map和Reduce （1） Map阶段并行处理输入数据（2） Reduce阶段对Map结果进行汇总

Hadoop运行环境搭建

1 虚拟机环境准备

网络配置

第一步，更改网卡设置

同时记录下mac地址，为00:0c:29:d2:60:7a

第二步：更改网络设置

第三步：更改主机名

第四步：添加映射

第五步：更改网络配置

（注意！！mac是.1不是.2）

总结

结果

用户配置

修改配置文件/etc/sudoers

java和hadoop环境安装

在/opt目录下创建module、software文件夹

software用来存储所有程序的jar包（类似安装包）

module就是所有的jar包解压之后放置的地方（安装的地方）

将jdk包和hadoop包传到/opt/software中
将这两个包解压到/opt/module中

命令

tar -zxvf xxx -C /opt/module

注意

此时的文件是属于root的，需要将其改为自己的

在文件/etc/profile中添加JAVA_HOME和HADOOP_HOME

source /etc/profile

就可以了

结果

2 官方案例

我自己在/home目录下建立了一个hadoop_learning文件夹，然后在里面的examples进行演示。

① grep案例

a. 首先将hadoop文件夹下的etc目录下的.xml文件复制到grep_input文件中：

cp /opt/module/hadoop-2.7.2/etc/hadoop/*.xml grep_input/

b. 然后运行hadoop示例的example文件来执行grep

hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep grep_input/ grep_output 'dfs[a-z.]+'

c. 最后在grep_output里面看结果

② WordCount案例

a. 首先自己创建一个wc_input文件，里面放入自己写的文件

b. 运行hadoop示例的example文件来执行

hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wc_input/ wc_output

c. 就可以得到词频的统计结果

伪分布式模式

1 启动HDFS并运行MR文件

伪分布式模式介绍

按照分布式来进行配置，只是只有一台服务器而已。

伪分布式配置

在hadoop目录下的etc/hadoop里面是所有的配置文件

1. 修改env文件

只要看到env，就改JAVA_HOME

修改前：

修改后：

2. 修改core-site.xml

修改前

修改后

3. 修改hdfs-site.xml

指定HDFS副本的数量

修改前

修改后

启动集群

1. 格式化NameNode

第一次启动时格式化即可，以后就不要总格式化了。

bin目录下的hdfs可以做到

bin/hdfs namenode -format

2. 启动NameNode

所有的启动命令都在sbin目录下面

输入

hadoop-daemon.sh start namenode

3. 检查是否启动成功

用jps检查

jps：java的ps进程

4. 启动DataNode

还是用hadoop-daemon.sh来启动

5. 检查datanode是否启动成功

还是jps

6. 检查集群是否启动

去window主机的谷歌浏览器上输入ip地址:50070查看是否能正常进入

注意！！！

必须关闭防火墙！否则不能正常进入

添加目录和文件

最开始的时候只有根目录

若要添加目录，则需要用hadoop的指令

bin/hdfs dfs -mkdir -p /home/hadoop_learning/coachhe

ls用法

bin/hdfs dfs -ls /home/hadoop_learning/

上传文件

hdfs dfs -put /home/hadoop_learning/examples/wc_input/wc.input /home/hadoop_learning/examples/wc_input/

重新格式化NameNode

首先

关闭jps查询得到的NameNode和DataNode进程

然后

删除$HADOOP_HOME目录下面的data和logs文件。

注意

一定要先退出进程再删除文件

思考：为么不能一直格式化NameNode？

因为DataNode和NameNode共享同一个集群 ID，两者之间需要相互通信，因此如果格式化之后NameNode会变化集群ID，导致两者不能通信。

具体分析

2 启动YARN并运行MR文件

分析

配置集群在YARN上运行MR
启动、测试集群增、删、查
在YARN上执行WordCount案例。

配置

1. 修改yarn-env.sh（同样也在etc/hadoop目录下）

2. 配置yarn-site.xml

修改后格式如下

3. 配置mapred-env.sh

4. 配置mapreds-site.xml.template，重新命名为mapred-site.xml

5. 修改mapred-site.xml

修改后如下

总结

启动集群

1. 保证NameNode和DataNode已经启动

2. 启动resourcemanager和nodemanager

使用sbin目录下的yarn-daemon.sh脚本，启动方法和hadoop-daemon.sh一样

标志

运行MR程序

运行方式和没有YARN完全相同

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /home/hadoop_learning/examples/wc_input/wc.input /home/hadoop_learning/examples/wc_output_yarn

注意

运行得到的输出（wc_output_yarn）不能直接在服务器上看见，需要用hdfs指令才能看到

配置文件总结

自定义配置文件

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上，用户可以根据项目需求重新进行修改配置。

架构光影师

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop 伪分布式1g内存_Hadoop1 介绍（伪分布式集群搭建）

Hadoop介绍1 定义Hadoop是一个由Apache基金会所开发的分布式系统基础架构2 解决问题海量数据的存储和海量数据的分析计算问题。3 三大发行版本Apache：最基础，对于入门学习最好Cloudera：在大型互联网企业中用的较多Hortonworks：文档较好4 Hadoop的优势高可靠性：Hadoop底层维护了多个副本（默认为3个），所以即使Hadoop某个计算元素或存储出现故障，也不...
复制链接

扫一扫