Hadoop
文章平均质量分 85
Hadoop
庭前云落
天空下的夜我一人行走
展开
-
从零开始的Hadoop学习(六)| HDFS读写流程、NN和2NN工作机制、DataNode工作机制
这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦NameNode节点断电,就会产生数据丢失。但是,如果长时间添加数据到Edits中,会导致该文件数据过大,效率降低,而且一旦断电,恢复元数据需要的时间过长。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。(1)一个数据块在 DataNode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。原创 2023-09-01 11:22:24 · 691 阅读 · 0 评论 -
从零开始的Hadoop学习(五)| HDFS概述、shell操作、API操作
1)HDFS 产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。2)HDFS定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件:其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。原创 2023-08-31 15:22:46 · 815 阅读 · 0 评论 -
从零开始的Hadoop学习(四)| SSH无密登录配置、集群配置
1)各个模块分开启动/停止(配置 ssh 是前提)常用整体启动/停止 HDFS整体启动/停止 YARN2)各个服务组件逐一启动/停止分别启动/停止 HDFS 组件启动/停止 YARN。原创 2023-08-29 16:12:41 · 3179 阅读 · 0 评论 -
从零开始的Hadoop学习(三)| 集群分发脚本xsync
(a) 在hadoop102上,将hadoop102中/opt/module/jdk1.8.0_212目录拷贝到hadoop103上。(b) 在hadoop103上,将hadoop102中/opt/module/hadoop-3.1.3目录拷贝到hadoop103上。© 在hadoop103上操作,将hadoop102中/opt/module目录下所有目录拷贝到hadoop104上。(b) 同步hadoop102中的/opt/module/hadoop-3.1.3到hadoop103。原创 2023-08-28 09:20:00 · 1129 阅读 · 0 评论 -
从零开始的Hadoop学习(二)| Hadoop介绍、优势、组成、HDFS架构
HDFS(Hadoop Distributed File System)的架构概述。NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。原创 2023-08-25 08:46:22 · 1358 阅读 · 0 评论 -
从零开始的Hadoop学习(一) | 大数据概念、特点、应用场景、发展前景
这是大数据区分于传统数据挖掘的最显著特征。根据IDC的"数字宇宙"的报告,预计到2025年,全球数据使用量将达到163ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的。这种类型的多样性也让数据被分为结构化数据和非结构化数据,相对于以往便于存储的。当前,典型个人计算机硬盘的容量为TB量级,而一些大。等,这些多类型的数据对数据的处理能力提出了更高要求。价值密度的高低与数据总量的大小成反比。原创 2023-08-24 11:35:42 · 170 阅读 · 0 评论