【无标题】

本文探讨了Hadoop的核心技术,包括HDFS、MapReduce和YARN,以及它们构成的大数据生态圈,同时对比了Spark的生态系统及其在性能、编程模型和内存管理上的优势。还介绍了结构化与非结构化数据的区别以及数据库备份策略。
摘要由CSDN通过智能技术生成

一.hadoop生态圈

我们通常说到的hadoop包括两部分,一是Hadoop核心技术(或者说狭义上的hadoop),对应为apache开源社区的一个项目,主要包括三部分内容:hdfs,mapreduce,yarn。其中hdfs用来存储海量数据,mapreduce用来对海量数据进行计算,yarn是一个通用的资源调度框架(是在hadoop2.0中产生的)。

  另一部分指广义的,广义上指一个生态圈,泛指大数据技术相关的开源组件或产品,如hbase、hive、spark、pig、zookeeper、kafka、flume、phoenix、sqoop等。

  生态圈中的这些组件或产品相互之间会有依赖,但又各自独立。比如habse和kafka会依赖zookeeper,hive会依赖mapreduce。

二.

Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的,是一个力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的平台。

        AMP 实验室运用大数据、云计算、通信等各种资源及各种灵活的技术方案,对海量不透明的数据进行甄别并转化为有用的信息,以供人们更好地理解世界。该生态圈已经涉及机器学习、数据挖掘、数据库、信息检索、自然语言处理和语音识别等多个领域。

        如图 1 所示,Spark 生态圈以 Spark Core 为核心,从 HDFS、Amazon S3 和 HBase 等持久层读取数据,以 Mesos、YARN 和自身携带的 Standalone 为 Cluster Manager 调度 Job 完成 Spark 应用程序的计算,这些应用程序可以来自于不同的组件。

        如 Spark Shell/Spark Submit 的批处理,Spark Streaming 的实时处理应用,Spark SQL 的即席查询,MLlib 的机器学习,GraphX 的图处理和 SparkR 的数学计算等。

三.

MapReduce是一种用于大规模数据处理的编程模和计算框架。它由Google提出,并被广泛应用于分布式计算领域。MapReduce框架包括两个主要的阶段:Map阶段和Reduce阶段。

在Map阶段,输入数据被划分为多个小的数据块,并由多个Map任务并行处理。每个Map任务将输入数据块映射为一系列的键值对。这些键值对作为中间结果被缓存在内存中,并通过分区函数将它们分发到不同的Reduce任务。

在Reduce阶段,所有具有相同键的键值对被分配给同一个Reduce任务进行处理。Reduce任务对这些键值对进行聚合、排序和归并操作,生成最终的输出结果。

对比MapReduce和Spark,可以得出以下几点差异:

  1. 性能:由于Spark将数据存储在内存中,因此比MapReduce更快。Spark还支持更多的操作类型,如迭代计算和实时处理。
  2. 编程模型:MapReduce采用两阶段的Map和Reduce操作,而Spark使用RDD进行并行计算。Spark的编程模型更灵活,支持更多的操作和数据处理方式。
  3. 内存管理:Spark将数据存储在内存中,可以更高效地进行数据访问和计算。而MapReduce需要将数据写入磁盘,对于大规模数据集的处理速度相对较慢。
  4. 生态系统:Spark拥有更丰富的生态系统,提供了许多扩展库和工具,如Spark SQL、Spark Streaming和MLlib等,可以满足不同的数据处理需求。

四。

结构化数据和非结构化数据是大数据的两种类型,这两者之间并不存在真正的冲突。客户如何选择不是基于数据结构,而是基于使用它们的应用程序:关系数据库用于结构化数据,大多数其他类型的应用程序用于非结构化数据。

结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。

五。

热备(在线备份):在数据库运行时直接备份,对数据库操作没有任何影响。

冷备(离线备份):在数据库停止时进行备份。

温备:在数据库运行时加全局读锁备份,保证了备份数据的一致性,但对性能有影响

  • 42
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值