升级打怪之早日走上富婆之路

TSTZXRYQ

已于 2024-03-12 00:07:42 修改

阅读量811

点赞数 19

文章标签： spark mapreduce 大数据

于 2024-03-12 00:05:21 首次发布

本文链接：https://blog.csdn.net/TSTZXRYQ/article/details/136551826

版权

技能一：Hadoop生态圈

一、hadoop生态圈
我们通常说到的hadoop包括两部分，一是Hadoop核心技术（或者说狭义上的hadoop），对应为apache开源社区的一个项目，主要包括三部分内容：hdfs，mapreduce，yarn。其中hdfs用来存储海量数据，mapreduce用来对海量数据进行计算，yarn是一个通用的资源调度框架（是在hadoop2.0中产生的）。

另一部分指广义的，广义上指一个生态圈，泛指大数据技术相关的开源组件或产品，如hbase、hive、spark、pig、zookeeper、kafka、flume、phoenix、sqoop等。

生态圈中的这些组件或产品相互之间会有依赖，但又各自独立。比如habse和kafka会依赖zookeeper，hive会依赖mapreduce。

技能二：spark的生态圈、特点

spark生态圈是加州大学伯克利分校的 AMP 实验室打造的，是一个力图在算法（Algorithms）、机器（Machines）、人（People）之间通过大规模集成来展现大数据应用的平台。

如图 1所示，Spark 生态圈以 Spark Core 为核心，从 HDFS、Amazon S3 和 HBase 等持久层读取数据，以 Mesos、YARN 和自身携带的 Standalone 为 Cluster Manager 调度 Job 完成 Spark 应用程序的计算，这些应用程序可以来自于不同的组件。

如 Spark Shell/Spark Submit 的批处理，Spark Streaming 的实时处理应用，Spark SQL 的即席查询，MLlib 的机器学习，GraphX 的图处理和 SparkR 的数学计算等。

Spark特点：Spark具有运行速度快、易用性好、通用性强和随处运行等特点

技能三：Mapreduce的运行框架，spark和mapreduce巅峰对决

Mapreduce运行框架

1、框架图

Input→Mapper→shuffle→Reducer→Output

2.【Spark和MapReduce对比】

【总结】
尽管Spark相对于Hadoop而言具有较大优势，但Spark并不能完全替代Hadoop
1、在计算层面，Spark相比较MR（MapReduce）有巨大的性能优势，但至今仍有许多计算工具基于MR构架，比如非常成熟的Hive，hive的底层默认是MapReduce，但是可以经过与spark重新编译后，底层计算框架换成spark。
2、Spark仅做计算，而Hadoop生态圈不仅有计算（MR）也有存储（HDFS）和资源管理调度（YARN），HDFS和YARN仍是许多大数据
体系的核心架构。

技能四：秀一波操作

技能五：结构化数据和非结构化数据

1.结构化数据：即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。

2.非结构化数据：不方便用数据库二维逻辑表来表现的数据，包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。

技能六：解释冷备和热备

1.热备：数据库运行时备份，实时的。例如：Oracle中的主备模式，备库实时同步主库数据。
2.冷备：数据库停止后备份，非实时。例如：数据库停止了，再去拷贝物理文件。

TSTZXRYQ

关注

19
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
升级打怪之早日走上富婆之路

1、在计算层面，Spark相比较MR（MapReduce）有巨大的性能优势，但至今仍有许多计算工具基于MR构架，比如非常成熟的Hive，hive的底层默认是MapReduce，但是可以经过与spark重新编译后，底层计算框架换成spark。如 Spark Shell/Spark Submit 的批处理，Spark Streaming 的实时处理应用，Spark SQL 的即席查询，MLlib 的机器学习，GraphX 的图处理和 SparkR 的数学计算等。1.热备：数据库运行时备份，实时的。
复制链接

扫一扫