Spark概述

最新推荐文章于 2023-04-05 13:52:42 发布

大数据面壁者

最新推荐文章于 2023-04-05 13:52:42 发布

阅读量253

点赞数 1

分类专栏： spark 文章标签： spark 大数据

本文链接：https://blog.csdn.net/weixin_42796403/article/details/111499675

版权

spark 专栏收录该内容

30 篇文章 1 订阅

订阅专栏

Spark概述

一、什么是Spark

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

Hadoop主要解决，海量数据的存储和海量数据的分析计算。

二、Hadoop与Spark历史

在这里插入图片描述

Hadoop的Yarn框架比Spark框架诞生的晚，所以Spark自己也设计了一套资源调度框架。

三、Hadoop与Spark框架对比

在这里插入图片描述

四、 Spark内置模块

在这里插入图片描述

Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD)的API定义。
Spark SQL：是Spark用来操作结构化数据的程序包。通过Spark SQL，我们可以使用 SQL或者Apache Hive版本的HQL来查询数据。Spark SQL支持多种数据源，比如Hive表、Parquet以及JSON等。
Spark Streaming：是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API，并且与Spark Core中的 RDD API高度对应。
Spark MLlib：提供常见的机器学习功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。
Spark GraphX：主要用于图形并行计算和图挖掘系统的组件。
集群管理器：Spark设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求，同时获得最大灵活性，Spark支持在各种集群管理器（Cluster Manager）上运行，包括Hadoop YARN、Apache Mesos，以及Spark自带的一个简易调度器，叫作独立调度器。

Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于大搜索、直达号、百度大数据等业务；阿里利用GraphX构建了大规模的图计算和图挖掘系统，实现了很多生产系统的推荐算法；腾讯Spark集群达到8000台的规模，是当前已知的世界上最大的Spark集群。

五、Spark特点

在这里插入图片描述

大数据面壁者

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark概述

Spark概述一、什么是SparkSpark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Hadoop主要解决，海量数据的存储和海量数据的分析计算。二、Hadoop与Spark历史Hadoop的Yarn框架比Spark框架诞生的晚，所以Spark自己也设计了一套资源调度框架。三、Hadoop与Spark框架对比四、 Spark内置模块Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了
复制链接

扫一扫