关于spark

最新推荐文章于 2023-12-17 02:26:46 发布

Mar.三月

最新推荐文章于 2023-12-17 02:26:46 发布

阅读量194

点赞数

分类专栏：商汤实习自己不知道的点

商汤实习自己不知道的点专栏收录该内容

13 篇文章 0 订阅

订阅专栏

由于重构的算法评测系统使用到了spark，因此了解下spark干啥的

1. Spark概述
1. 什么是Spark？Spark作为Apache顶级的开源项目，是一个快速、通用的大规模数据处理引擎，和Hadoop的MapReduce计算框架类似，但是相对于MapReduce，Spark凭借其可伸缩、基于内存计算等特点，以及可以直接读写Hadoop上任何格式数据的优势，进行批处理时更加高效，并有更低的延迟。相对于“one stack to rule them all”的目标，实际上，Spark已经成为轻量级大数据快速处理的统一平台，各种不同的应用，如实时流处理、机器学习、交互式查询等，都可以通过Spark建立在不同的存储和运行系统上。

2. Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。

3. Spark于2009年诞生于加州大学伯克利分校AMPLab。目前，已经成为Apache软件基金会旗下的顶级开源项目。相对于MapReduce上的批量计算、迭代型计算以及基于Hive的SQL查询，Spark可以带来上百倍的性能提升。目前Spark的生态系统日趋完善，Spark SQL的发布、Hive on Spark项目的启动以及大量大数据公司对Spark全栈的支持，让Spark的数据分析范式更加丰富。

2. Spark大数据处理框架
相较于国内外较多的大数据处理框架，Spark以其低延时的出色表现，正在成为继Hadoop的MapReduce之后，新的、最具影响的大数据框架之一。以Spark为核心的整个生态圈，最底层为分布式存储系统HDFS、Amazon S3、Mesos，或者其他格式的存储系统（如HBase）；资源管理采用Mesos、YARN等集群资源管理模式，或者Spark自带的独立运行模式，以及本地运行模式。在Spark大数据处理框架中，Spark为上层多种应用提供服务。例如，Spark SQL提供SQL查询服务，性能比Hive快3～50倍；MLlib提供机器学习服务；GraphX提供图计算服务；Spark Streaming将流式计算分解成一系列短小的批处理计算，并且提供高可靠和吞吐量服务。值得说明的是，无论是Spark SQL、Spark Streaming、GraphX还是MLlib，都可以使用Spark核心API处理问题，它们的方法几乎是通用的，处理的数据也可以共享，不仅减少了学习成本，而且其数据无缝集成大大提高了灵活性。

https://blog.csdn.net/u011204847/article/details/51010205

Mar.三月

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于spark

由于重构的算法评测系统使用到了spark，因此了解下spark干啥的1. Spark概述1. 什么是Spark？Spark作为Apache顶级的开源项目，是一个快速、通用的大规模数据处理引擎，和Hadoop的MapReduce计算框架类似，但是相对于MapReduce，Spark凭借其可伸缩、基于内存计算等特点，以及可以直接读写Hadoop上任何格式数据的优势，进行批处理时更加高效，并有更低...
复制链接

扫一扫

专栏目录