大数据_spark

傻猴儿

已于 2022-04-17 15:34:18 修改

阅读量2.4k

点赞数 2

分类专栏：杂记文章标签： spark

于 2022-04-17 15:31:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lkm987654321/article/details/124229614

版权

杂记专栏收录该内容

84 篇文章 0 订阅

订阅专栏

spark是针对于大规模数据处理的统一分析引擎，在Hadoop基础上的改进，基于MapReduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

spark的优势：

1、高性能：

1）Spark具有hadoopMapReduce所有的优点，MapReduce每次计算的中间结果都会存储到HDFS的磁盘上，而Spark的中间结果可以保存在内存，在内存中进行数据处理。
2）Spark使用最先进的DAG调度程序，查询优化程序和物理执行引擎，实现批量和流式数据的高性能。

2、通用性

Spark是一个通用的引擎，它可以用来完成各种操作，包括SQL查询、文本处理、机器学习等。

3、容错性高

基于“血统”(Lineage)的数据恢复: spark引入了弹性分布式数据集RDD的抽象，它是分布在一组节点中的只读的数据的集合，这些集合是弹性的且是相互依赖的，如果数据集中的一部分的数据发生丢失可以根据“血统”关系进行重建。

4、兼容性强

Spark任务支持多种调度方式包括Yarn、mesos、Standalone等。可通过Spark直接对接大数据生态中Hbase、Hdfs、Kafka等多种数据源。

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据_spark

大数据_spark
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

傻猴儿 小编，多谢客官留下的赏钱。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。