2024年最新关于Hadoop生态圈相关组件的介绍

最新推荐文章于 2024-09-11 21:29:29 发布

2401_84181108

最新推荐文章于 2024-09-11 21:29:29 发布

阅读量729

点赞数 26

分类专栏：程序员文章标签： hadoop 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84181108/article/details/138407859

版权

本文介绍了Hadoop的伪分布式和完全分布式模式，详细阐述了Hadoop的优点，如高容错性和低成本。核心组件HDFS的优缺点、NameNode、DataNode、FSImage和edits文件等进行了讲解。此外，还探讨了MapReduce的特点和运行架构，与Spark的比较。最后，文章提到了Linux命令、备份策略和大数据中的数据类型。

摘要由CSDN通过智能技术生成

伪分布式模式

（1）Hadoop安装在一台计算机上，需要修改相应的配置文件，用一台计算机模拟多台主机的集群。

（2）需要启动HDFS和YARN，是相互独立的Java进程。

（3）MapReduce运行处理数据时是每个作业一个独立进程，输入输出使用分布式文件系统。

（4）用来进行学习和开发测试Hadoop程序的执行是否正确。

完全分布式模式

（1）在多台计算机上安装JDK和Hadoop，组成相互连通的集群，需要修改相应的配置文件。

（2）Hadoop的守护进程运行在由多台主机搭建的集群上。

真正的生产环境。

Hadoop 优点

（1）扩容能力强：Hadoop是在可用的计算机集群间分配数据并完成计算任务，这些集群可以方便地扩展到数以千计的节点。

（2）成本低：通过普通廉价的计算机组成服务器集群来分发以及处理数据，相比使用大型机乃至超级计算机成本低很多。

（3）高效率：通过并发数据，Hadoop可以在节点之间动态并行处理数据，使得处理速度非常快。

（4）高可靠性：能自动维护数据的多份复制，并且在任务失败后能自动地重新部署计算任务。

Hadoop的核心组件——HDFS

HDFS 定义

HDFS(Hadoop Distributed File System)，它是一个文件系统，用于存储文件，通过目录树来定位文件;其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。适合一次写入，多次读出的场景，不支持文件修改，可以过来做数据分析。

优点：

（1）容错性高：主要有多个副本

（2）适合处理大数据：数据规模可达到 PB级别，文件量能够处理百万这个量级

（3）可构建在廉价机器上

缺点：

（1）数据访问有延时，做不到毫秒级别的

（2）大量小文件不能高效存储，NameNode会占用大量内存

（3）可追加写入，不可随机修改，不支持并发写入（不支持多线程写入）

HDFS架构图

相关组件的介绍

NameNode

名称节点，HDFS的管理者。

（1）管理HDFS的名字空间，维护管理所有文件的元数据。

（2）管理DataNode上的数据块，决定文件数据块存储到哪个DataNode。

（3）处理客户端的读写请求。

（4）按用户确定的副本策略管理HDFS中数据的副本

DataNode（数据节点）

负责存储数据。

（1）存储实际的数据块，每个HDFS数据块默认大小为128MB，存储在本地文件系统的单独文件中。

（2）处理客户端的读写请求，执行数据块的读和写。

（3）向 NameNode 定期汇报数据块信息，并定时向 NameNode 发送心跳信号保持联系。

FSImage和edits文件

（1）FSImage文件存储文件的元数据，HDFS运行时会将该文件加载到内存中。

最低0.47元/天解锁文章

关注

26
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
2024年最新关于Hadoop生态圈相关组件的介绍

冷备”、"温备"和"热备"是备份和恢复策略中常见的术语，它们描述了在不同情况下备份数据的状态以及备份过程的准备程度。这些术语主要用于描述系统或数据的备份和恢复策略。冷备。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。