Hadoop的完全分布式（基本环境已经搭建好，主要是针对配置文件的解析）

最新推荐文章于 2024-05-16 17:43:54 发布

尋覔

最新推荐文章于 2024-05-16 17:43:54 发布

阅读量2.3k

点赞数

文章标签： hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52563266/article/details/124348168

版权

Hadoop是什么？

1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

2）主要解决，海量数据的存储和海量数据的分析计算问题。

3）广义上来说， Hadoop 通常是指一个更广泛的概念 —— Hadoop 生态圈。

Hadoop的优势有哪些？

1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元

素或存储出现故障，也不会导致数据的丢失。

2 ）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。

3）高效性：在 MapReduce 的思想下， Hadoop 是并行工作的，以加快任务处

理速度。

4 ）高容错性：能够自动将失败的任务重新分配。

历代Hadoop的区别

Hadoop重要的框架组成部分

1.Hadoop Distributed File System

分布式文件系统简称HDFS

1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。

2）DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。

3）Secondary NameNode(2nn)：每隔一段时间对NameNode元数据备份。

2.Yet Another Resource Negotiator

资源协调者，资源调度分配，简称YARN

1）ResourceManager（RM）：整个集群资源（内存、CPU等）的老大

2）NodeManager（N M）：单个节点服务器资源老大

3）ApplicationMaster（AM）：单个任务运行的老大

4）Container：容器，相当一台独立的服务器，里面封装了任务运行所需要的资源，如内存、 CPU 、磁盘、网络等。

3.MapReduce

1）Map 阶段并行处理输入数据

2）Reduce 阶段对 Map 结果进行汇总

完全分布安装（三台）

前提条件，必须配备jdk环境(需要先卸载原有的环境)，防火墙关闭，ssh免密登录

关闭防火墙命令：systemctl stop firewalld 防止开机自启：systemctl distable firewalld.service

配置主机名称映射hosts文件

下载解压到路径/opt/apps修改名称hadoop添加路径

这里我把握的路径展示出来

source /etc/profile生效

集群规划

配置核心文件

在/opt/apps/hadoop/etc/hadoop 下vim core-site.xml

vim hdfs-site.xml

vim yarn-site.xml

vim mapred-site.xml

workers

这里需要对.sh文件添加配置，以上环境变量中已经介绍

第一次启动集群需要格式化（初始化只能初始化一次，如果集群在运行过程中报错，需要重新格式化 NameNode 的话，一定要先停止 namenode 和 datanode 进程，并且要删除所有机器的 data 和 logs 目录，然后再进行格式化）

hdfs namenode -format

然后就可正常启动了

在sbin下./start-sll.sh

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hadoop的完全分布式（基本环境已经搭建好，主要是针对配置文件的解析）

Hadoop三台服务器配置
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。