![](https://img-blog.csdnimg.cn/20190918140145169.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 94
大数据相关
fedorafrog
这个作者很懒,什么都没留下…
展开
-
HBase入门
HBase 是一个面向列式存储的分布式数据库,其设计思想来源于 Google 的 BigTable 论文。HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。HBase 良好的分布式架构设计为海量数据的快速存储、随机访问提供了可能,基于数据副本机制和分区机制可以轻松实现在线扩容、缩容和数据容灾,是大数据领域中 Key-Value 数据结构存储最常用的数据库方案。转载 2023-06-01 21:37:55 · 606 阅读 · 0 评论 -
Hive入门
1.按照JOIN顺序中的最后一个表应该尽量是大表,因为JOIN前一阶段生成的数据会存在于Reducer的buffer中,通过stream最后面的表,直接从Reducer的buffer中读取已经缓冲的中间结果数据(这个中间结果数据可能是JOIN顺序中,前面表连接的结果的Key,数据量相对较小,内存开销就小),这样,与后面的大表进行连接时,只需要从buffer中读取缓存的Key,与大表中的指定Key进行连接,速度会更快,也可能避免内存缓冲区溢出。Hive的表都是纯逻辑表,就只是表的定义等,即表的元数据。转载 2023-05-10 21:36:16 · 504 阅读 · 0 评论 -
Hadoop生态圈(九)YARN架构深入学习
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。可以把 Hadoop YARN 理解为相当于一个分布式的操作系统平台,而 MapReduce 等计算程序则相当于运行于操作系统之上的应用程序,YARN 为这些程序提供运算所需的资源(内存、cpu 等)。转载 2022-10-19 21:17:10 · 876 阅读 · 0 评论 -
Hadoop生态圈(八)MapReduce工作流程详解
待数据 copy 完成之后,copy 阶段就完成了,开始进行 sort 阶段,sort 阶段主要是执行 finalMerge 操作,纯粹的 sort 阶段,完成之后就是 reduce 阶段,调用用户定义的 reduce 函数进行处理。shuffle 阶段,大量的数据从 map 阶段输出,发送到 reduce 阶段,这一过程中,可能会涉及到大量的网络 IO。Shuffle 的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。shuffle 阶段过程繁琐、琐碎,涉及了多个阶段的任务交接。转载 2022-10-16 20:15:17 · 818 阅读 · 0 评论 -
Hadoop生态圈(七)MapReduce并行度机制
MapTask 的并行度指的是map阶段有多少个并行的task共同处理任务。map 阶段的任务处理并行度,势必影响到整个 Job 的处理速度。转载 2022-10-16 20:07:31 · 525 阅读 · 0 评论 -
Hadoop生态圈(六)MapReduce基础理论
分布式计算是一种计算方法,和集中式计算是相对的。随着计算技术的发展,有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。Hadoop MapReduce是一个分布式运算程序的编程框架,用于轻松编写应用程序,这些应用程序以可靠,容错的方式并行处理大型硬件集群(数千个节点)上的大量数据(多 TB 数据集)。转载 2022-10-16 13:48:34 · 288 阅读 · 0 评论 -
Hadoop生态圈(五)HDFS高可用架构
(英语:single point of failure,缩写SPOF)是指系统中某一点一旦失效,就会让整个系统无法运作,换句话说,单点故障即会整体故障。(英语:high availability,缩写为HA),IT 术语,指系统无中断地执行其功能的能力,代表系统的可用性程度。是进行系统设计时的准则之一。高可用性系统意味着系统服务可以更长时间运行,通常通过提高系统的容错能力来实现。高可用性或者高可靠度的系统不会希望有单点故障造成整体故障的情形。转载 2022-09-26 10:00:47 · 620 阅读 · 0 评论 -
Hadoop生态圈(四)HDFS读写流程和联邦机制
①客户端通过调用 FileSystem 对象的 open() 方法来打开希望读取的文件,对于HDFS来说,这个对象是 DistributedFileSystem 的一个实例。②DistributedFileSystem 通过使用远程过程调用(RPC)来调用 NameNode,以确定文件起始块的位置。③对于每一个块, NameNode 返回存有该块副本的 DataNode 地址。此外,这些 DataNode 根据它们与客户端的距离来排序(根据集群的网络拓扑)。转载 2022-09-25 20:51:44 · 530 阅读 · 0 评论 -
Hadoop生态圈(三)HDFS元数据持久化(FSImage、EditLog、SNN)
这样在 NameNode 启动的时候就不用将巨大的 EditLog 中的事务再执行一遍,而是直接加载合并之后的新 FSImage ,然后重新执行未被合并的 EditLog 文件就可以了。此时 NameNode 启动结束,等待接受用户的操作请求,并把用户操作写入新的 edit log 中,定期进行 checkpoint,对元数据执行快照。另外,由于 NameNode 在启动的时候,需要将 EditLog 中的操作重新执行一遍,过大的 EditLog 会延长 NameNode 的启动时间。转载 2022-09-25 16:29:50 · 1134 阅读 · 1 评论 -
Hadoop生态圈(二)HDFS概述
它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。HDFS 主要适合去做批量数据出来,相对于数据请求时的反应时间,HDFS 更倾向于保障吞吐量。转载 2022-09-21 21:17:44 · 165 阅读 · 0 评论 -
Hadoop生态圈(一)Hadoop概述
Hadoop Distributed File System,简称HDFS,是一个分布式文件系统,用来解决海量数据存储的问题。存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。在本地文件系统存储文件块数据,以及块数据的校验。每隔一段时间对NameNode元数据备份。Yet Another Resource Negotiator 简称YARN,另一种资源协调者,是Hadoop的资源管理器,用来解决资源任务调度的问题。转载 2022-09-05 17:14:45 · 429 阅读 · 0 评论