Spark学习之路（一）——Spark初识

最新推荐文章于 2022-05-07 14:54:37 发布

每一天U为明天

最新推荐文章于 2022-05-07 14:54:37 发布

阅读量424

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Rong_Robot/article/details/101163618

版权

大数据专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1、Spark是一个实现快速通用的集群计算平台，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。
2、Spark是一个计算框架，替代Hadoop中MapReduce的原因是：MapReduce计算框架的中间结果会输出到磁盘上，进行存储和容错。Spark最大的特点是将计算数据、中间结果都存储在内存中，大大减少了读写磁盘的IO开销。因而Spark更适合于迭代运算比较多的数据挖掘与机器学习运算。
3、Spark的四大特性：①高效性：Spark使用DAG（有向无环图）执行引擎，以支持循环数据流与内存计算，实现批量和流式数据的高性能；②易用性：Spark支持Scala、Java、Python和R语言进行编程；③通用性：Spark提供了完整而强大的技术栈，包括批处理（Spark）、交互式查询（SparkSQL）、实时流处理（SparkStreaming）、机器学习（SparkMLlib）和图计算（GraphX）；④兼容性：Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器。Spark也可不依赖于第三方资源管理和调度器，将Standalone作为其内置的资源管理和调度框架。
4、Spark的组成：

SparkCore：SparkCore实现了Spark的基本功能，包括内存计算、任务调度、部署模式、故障恢复、存储管理等，主要面向批数据处理。
SparkSQL：SparkSQL是Spark用来操作结构化数据的程序包，可通过SQL语言来查询数据。
SparkStreaming：SparkStreaming是Spark提供的对实时数据进行流式计算的组件。它支持高吞吐量、可容错处理的实时流数据处理，其核心思想是将流数据分解成一系列短小的批处理作业。
MLlib：MLlib提供了常用的机器学习算法的实现。
GraphX：GraphX是Spark中用于图计算的分布式图计算框架，能高效的进行图计算。

每一天U为明天

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark学习之路（一）——Spark初识

1、Spark是一个实现快速通用的集群计算平台，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。2、Spark是一个计算框架，替代Hadoop中MapReduce的原因是：MapReduce计算框架的中间结果会输出到磁盘上，进行存储和容错。Spark最大的特点是将计算数据、中间结果都存储在内存中，大大减少了读写磁盘的IO开销。因而Spark更适合于迭代运算比较多的...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。