大数据 hdfs 详解

本文深入探讨了大数据与传统数据的区别,详细介绍了Hadoop分布式文件系统(HDFS)的工作原理,包括其组件、存储机制、数据读写流程、数据校验以及集群的节点管理,如添加和删除节点的步骤。通过对HDFS的全面解析,读者将理解其在大数据处理中的核心地位和适用场景。
摘要由CSDN通过智能技术生成

1、传统数据与大数据的对比

在这里插入图片描述

2、大数据服务器安装规范

	系统硬盘
		两块硬盘做一个RAID1
		引导分区  200M
		交换分区  可以不设置或设置的很小。因为在大数据中需要将其关闭
		根分区		/(所有的空间)
	数据硬盘
		多个硬盘,每个硬盘独立挂载,有多少个硬盘,挂载多少个目录
		数据硬盘优先不做RAID,必须做时,做RAID0
做RAID:	优点:数据的读写效率稍高,
缺点:不支持热插拔。一个硬盘损坏,整个服务器需要全部关机再能处理该硬盘。
不做RAID:	优点:支持热插拔。硬盘损坏即把即插。不用关机。
缺点:数据的读写效率稍低。

3、传统数据与大数据处理方式对比

在这里插入图片描述

4、大数据技术快的原因

1、分布式存储
2、分布式并行计算
3、移动程序到数据端
4、更前卫、更先进的实现思路
5、更细分的业务场景
6、更先进的硬件技术+更先进的软件技术

5、Hadoop内部组成

HDFS:		海量数据的存储
MapReduce:	海量数据的离线计算
Yarn:		集群资源调度

6、HDFS全称

Hadoop Distribute File System 即 Hadoop分布式文件系统
主要作用:即存储海量数据
为什么能存储海量数据??
因为其空间大,空间大的原因为服务器多、磁盘多。且支持扩展

7、HDFS组成部分

	管理者-Master		NameNode  集群中有1-2个,用于管理集群中的工作者
	工作者-Slave			DataNode	集群中有多个	用于存储计算数据
	辅助管理            SecondaryNameNode   集群中有0-1  只负责辅助NameNode管理工作

8、HDFS存储数据的方式

	以数据块的方式存储数据。默认一个数据块128M,该数值可以修改。
	注意:这里的128仅仅是切分数据的阈值。
	一个大的数据被切分成多个小的128M的数据块,分别存储在集群多个节点的不同位置。
数据副本机制
	数据副本默认是3份。
	一个数据存储到HDFS后,数据自动复制两份,共三份(三分相同的数据-数据冗余)

9、数据副本存放机制


                
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

魔界小皮蛋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值