8个高质量大数据框架知识点汇总 PDF,全盘交给你们(建义收藏)

前言

大家好,关于技术干货,我为大家准备写一份《大数据面试突击系列》文章,先看看到目前为止的进展吧!

文章传送私回:大数据面试突击系列

为了让我的读者们方便学习以及 准备大数据面试 ,我把以上 8 篇高质量 干货文章 ,单独制作成 PDF ,今天全盘交给你们!有需要的关注公众号: 文字代表诉说 ,回复【学习】获取。

要真学哦,拿到资料不要放入收藏夹,小编会定期找你们查岗~

我相信,无论你是校招还是社招,对你一定会有帮助!

此外,《大数据面试突击系列》未完待续,还会持续更新,友友们不要急哈!小编目前正在集中精力写 Spark 和 Flink 系列文章,敬请期待!

也希望我的读者朋友们,给小编点赞,转发到朋友圈和身边的朋友,让小编的文章被更多人看见,这样小编也会更有动力更新文章的呀!

HDFS 原理篇

本文主要从 HDFS 高可用架构组成、 HDFS 读写流程、如何保证可用性以及高频面试题出发,提高大家对 HDFS 的认识,掌握一些高频的 HDFS 面试题。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
五种⼤数据架构简介 ⼤数据是收集、整理、处理⼤容量数据集,并从中获得见解所需的⾮传统战略和技术的总称。虽然处理数据所需的计算能⼒或存储容量早已 超过⼀台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近⼏年才经历了⼤规模扩展。 本⽂将介绍⼤数据系统⼀个最基本的组件:处理框架。处理框架负责对系统中的数据进⾏计算,例如处理从⾮易失存储中读取的数据,或处 理刚刚摄⼊到系统中的数据。数据的计算则是指从⼤量单⼀数据点中提取信息和见解的过程。 下⽂将介绍这些框架: · 仅批处理框架: Apache Hadoop · 仅流处理框架: Apache Storm Apache Samza · 混合框架: Apache Spark Apache Flink ⼤数据处理框架是什么? ⼤数据处理框架是什么? 处理框架和处理引擎负责对数据系统中的数据进⾏计算。虽然"引擎"和"框架"之间的区别没有什么权威的定义,但⼤部分时候可以将前 者定义为实际负责处理数据操作的组件,后者则可定义为承担类似作⽤的⼀系列组件。 例如Apache Hadoop可以看作⼀种以MapReduce作为默认处理引擎的处理框架。引擎和框架通常可以相互替换或同时使⽤。例如另⼀个 框架Apache Spark可以纳⼊Hadoop并取代MapReduce。组件之间的这种互操作性是⼤数据系统灵活性如此之⾼的原因之⼀。 虽然负责处理⽣命周期内这⼀阶段数据的系统通常都很复杂,但从⼴义层⾯来看它们的⽬标是⾮常⼀致的:通过对数据执⾏操作提⾼理解能 ⼒,揭⽰出数据蕴含的模式,并针对复杂互动获得见解。 为了简化这些组件的讨论,我们会通过不同处理框架的设计意图,按照所处理的数据状态对其进⾏分类。⼀些系统可以⽤批处理⽅式处理数 据,⼀些系统可以⽤流⽅式处理连续不断流⼊系统的数据。此外还有⼀些系统可以同时处理这两类数据。 在深⼊介绍不同实现的指标和结论之前,⾸先需要对不同处理类型的概念进⾏⼀个简单的介绍。 批处理系统 批处理系统 批处理在⼤数据世界有着悠久的历史。批处理主要操作⼤容量静态数据集,并在计算过程完成后返回结果。 批处理模式中使⽤的数据集通常符合下列特征… · 有界:批处理数据集代表数据的有限集合 · 持久:数据通常始终存储在某种类型的持久存储位置中 · ⼤量:批处理操作通常是处理极为海量数据集的唯⼀⽅法 批处理⾮常适合需要访问全套记录才能完成的计算⼯作。例如在计算总数和平均数时,必须将数据集作为⼀个整体加以处理,⽽不能将其视 作多条记录的集合。这些操作要求在计算进⾏过程中数据维持⾃⼰的状态。 需要处理⼤量数据的任务通常最适合⽤批处理操作进⾏处理。⽆论直接从持久存储设备处理数据集,或⾸先将数据集载⼊内存,批处理系统 在设计过程中就充分考虑了数据的量,可提供充⾜的处理资源。由于批处理在应对⼤量持久数据⽅⾯的表现极为出⾊,因此经常被⽤于对历 史数据进⾏分析。 ⼤量数据的处理需要付出⼤量时间,因此批处理不适合对处理时间要求较⾼的场合。 Apache Hadoop Apache Hadoop是⼀种专⽤于批处理的处理框架。Hadoop是⾸个在开源社区获得极⼤关注的⼤数据框架。基于⾕歌有关海量数据处理所 发表的多篇论⽂与经验的Hadoop重新实现了相关算法和组件堆栈,让⼤规模批处理技术变得更易⽤。 新版Hadoop包含多个组件,即多个层,通过配合使⽤可处理批数据: · HDFS:HDFS是⼀种分布式⽂件系统层,可对集群节点间的存储和复制进⾏协调。HDFS确保了⽆法避免的节点故障发⽣后数据依然可 ⽤,可将其⽤作数据来源,可⽤于存储中间态的处理结果,并可存储计算的最终结果。 · YARN:YARN是Yet Another Resource Negotiator(另⼀个资源管理器)的缩写,可充当Hadoop堆栈的集群协调组件。该组件负 责协调并管理底层资源和调度作业的运⾏。通过充当集群资源的接⼝,YARN使得⽤户能在Hadoop集群中使⽤⽐以往的迭代⽅式运⾏更多 类型的⼯作负载。 · MapReduce:MapReduce是Hadoop的原⽣批处理引擎。 批处理模式 批处理模式 Hadoop的处理功能来⾃MapReduce引擎。MapReduce的处理技术符合使⽤键值对的map、shuffle、reduce算法要求。基本处理过程 包括: · 从HDFS⽂件系统读取数据集 · 将数据集拆分成⼩块并分配给所有可⽤节点 · 针对每个节点上的数据⼦集进⾏计算(计算的中间态结果会重新写⼊HDFS) · 重新分配中间态结果并按照键进⾏分组 · 通过对每个节点计算的结果进⾏汇总和组合对每个键的值进⾏"Reducing" · 将计算⽽来的最终结果重新写⼊ HDFS 优势和局限 由于这种⽅法严重依赖持久存储,每个任务需要多次执

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值