初学大数据(主要介绍分布式存储)

本文介绍了大数据的概念,重点讲解了分布式存储的重要性,特别是HDFS(Hadoop Distributed File System)的工作机制。Namenode作为全局管理者,负责元数据管理和客户端读写请求,而Datanode则存储数据并发送心跳。HDFS采用特定的备份策略确保数据可靠性,并通过持久化机制保证Namenode的安全性。
摘要由CSDN通过智能技术生成

初学大数据(主要介绍分布式存储)

1.什么是大数据?
短时间内快速产生海量多种多样有价值的数据
2.大数据中的技术
①分布式存储
②分布式计算(包含以下两种)

	1)分布式批处理
			攒一段时间的数据,然后在未来某个时间处理这批数据
	2)分布式流处理
			不需要攒数据,直接处理,每产生一条数据,立马对这条数据进行处理,将结果推送到前端页面存储到数据库中。(双11天猫大屏幕、QQ实时在线分布情况都属于分布式流处理。)

3.部分概念
元数据:描述数据的数据
机架:Rack,现实中放服务器的架子,一般情况下一个机架放10条服务器。
4.为什么要用到分布式存储与计算?
假设有一个10PB的文件需要存储并处理,单台服务器的内存资源与计算资源都无法满足需求。因此引入分布式存储与计算。
5.分布式存储(HDFS)的基本思想?
用户client需要存储并处理一个10PB文件,假设将其分布存储在6台服务器上(6个Datanode)。此时,为记录每台服务器都存了哪些资源,引入一个代理(Namenode)。代理解决如何存、往哪存,如何取、去哪取的问题。

过程:当client需要存一个资源时,询问Nameno

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值