Mapreduce,Spark的区别，Hadoop的简介，2024年最新腾讯大牛教你自己写大数据开发框架

最新推荐文章于 2024-09-11 14:42:31 发布

2401_84166497

最新推荐文章于 2024-09-11 14:42:31 发布

阅读量965

点赞数 22

分类专栏： 2024年程序员学习文章标签：大数据 mapreduce spark

本文链接：https://blog.csdn.net/2401_84166497/article/details/137488712

版权

2024年程序员学习专栏收录该内容

76 篇文章 0 订阅

订阅专栏

我们通常说到的hadoop包括两部分，一是Hadoop核心技术对应为apache开源社区的一个项目，主要包括三部分内容：hdfs，mapreduce，yarn。其中hdfs用来存储海量数据，mapreduce用来对海量数据进行计算，yarn是一个通用的资源调度框架

另一部分指广义的，广义上指一个生态圈，泛指大数据技术相关的开源组件或产品，如hbase、hive、spark、pig、zookeeper、kafka、flume、phoenix、sqoop等。

生态圈中的这些组件或产品相互之间会有依赖，但又各自独立。比如habse和kafka会依赖zookeeper，hive会依赖mapreduce。

Spark

生态圈：

Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的，是一个力图在算法、机器、人之间通过大规模集成来展现大数据应用的平台。

AMP 实验室运用大数据、云计算、通信等各种资源及各种灵活的技术方案，对海量不透明的数据进行甄别并转化为有用的信息，以供人们更好地理解世界。该生态圈已经涉及机器学习、数据挖掘、数据库、信息检索、自然语言处理和语音识别等多个领域。

特点：

1、快速：逻辑回归算法一般需要多次迭代。

2、易用：Spark支持使用Scala、Python、Java、R等语言快速编写应用。Spark提供超过80个高阶算子，使得编写并行应用程序变得容易。并且Spark提供Scala、Python和R等语言的交互模式界面，使得Spark编程的学习更加简便。

3、通用：Spark可以与SQL语句、实时计算及其他复杂的分析计算进行良好的结合。Spark框架包含多个紧密集成的组件，包括Spark SQL（即席查询）、Spark Streaming（实时流处理）、Spark MLlib（机器学习库）、Spark GraphX（图计算）。并且Spark支持在一个应用中同时使用这些组件。


Spark SQL （即席查询）	Spark Streaming （实时流处理）	Spark MLlib （机器学习库）	Spark GraphX （图计算）