初学大数据（主要介绍分布式存储）

最新推荐文章于 2024-07-24 08:52:40 发布

DonviYang

最新推荐文章于 2024-07-24 08:52:40 发布

阅读量1.1w

点赞数

文章标签：大数据

本文链接：https://blog.csdn.net/DonviYang/article/details/82990964

版权

本文介绍了大数据的概念，重点讲解了分布式存储的重要性，特别是HDFS（Hadoop Distributed File System）的工作机制。Namenode作为全局管理者，负责元数据管理和客户端读写请求，而Datanode则存储数据并发送心跳。HDFS采用特定的备份策略确保数据可靠性，并通过持久化机制保证Namenode的安全性。

摘要由CSDN通过智能技术生成

初学大数据（主要介绍分布式存储）

1.什么是大数据？
短时间内快速产生海量的多种多样的有价值的数据
2.大数据中的技术
①分布式存储
②分布式计算（包含以下两种）

	1）分布式批处理
			攒一段时间的数据，然后在未来某个时间处理这批数据
	2）分布式流处理
			不需要攒数据，直接处理，每产生一条数据，立马对这条数据进行处理，将结果推送到前端页面存储到数据库中。（双11天猫大屏幕、QQ实时在线分布情况都属于分布式流处理。）

3.部分概念
元数据：描述数据的数据
机架：Rack，现实中放服务器的架子，一般情况下一个机架放10条服务器。
4.为什么要用到分布式存储与计算？
假设有一个10PB的文件需要存储并处理，单台服务器的内存资源与计算资源都无法满足需求。因此引入分布式存储与计算。
5.分布式存储（HDFS）的基本思想？
用户client需要存储并处理一个10PB文件，假设将其分布存储在6台服务器上（6个Datanode）。此时，为记录每台服务器都存了哪些资源，引入一个代理（Namenode）。代理解决如何存、往哪存，如何取、去哪取的问题。

过程：当client需要存一个资源时，询问Nameno