大数据框架之Spark框架

最新推荐文章于 2024-02-26 14:05:41 发布

StarCoder_Yue

最新推荐文章于 2024-02-26 14:05:41 发布

阅读量4.6k

点赞数 1

分类专栏：学习笔记文章标签：框架大数据 spark

本文链接：https://blog.csdn.net/StarCoder_WangYue/article/details/77019053

版权

学习笔记专栏收录该内容

28 篇文章 1 订阅

订阅专栏

大数据软件框架之

Spark框架：

Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。(引自百度百科)

由于原来的批处理框架MapReduce适合离线计算，却无法满足实时性较高的业务，所以Spark诞生了。Spark速度快，开发简单，可以同时兼顾批处理和实时数据分析。有时Spark框架被称作实时计算框架、内存计算框架或流式计算框架。

Hadoop使用数据复制来实现容错性，而Spark使用RDD（resilient Distributed Datasets ，弹性分布式数据集）数据存储模式来实现数据的容错性。RDD是只读的，分区记录的集合，在数据丢失后，RDD含有如何重建分区的相关信息，这就避免了使用数据复制，减少了对磁盘的访问。

Spark也需要集群管理器和分布式存储系统，集群管理器有Hadoop YARN、Apache Mesos 和Spark原生集群，分布式存储可以用HDFFS、Casanadra、OpenStaack Swift和Amazon S3。Spark也支持多语言，其中，最推荐的是Scala，Spark和Scala可以紧密集成。

Spark的内存适合于迭代计算，机器学习算法需要多次遍历训练集，可以将训练集缓存在内存里，节省了访问磁盘的开销。尽管如此，Spark本身的复杂性也困扰着开发人员，它的统计功能和R语言没有可比性。

StarCoder_Yue

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
大数据框架之Spark框架

大数据软件框架之Spark框架：Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以
复制链接

扫一扫