Spark学习笔记：基本概念

最新推荐文章于 2023-06-06 14:55:36 发布

GaryBigPig

最新推荐文章于 2023-06-06 14:55:36 发布

阅读量403

点赞数 1

分类专栏： Spark 文章标签：大数据 Spark 分布式计算 Bigdata Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fegang2002/article/details/85376075

版权

本文探讨了Spark作为分布式计算框架的优势，包括内存计算引擎提高效率、易用的API支持多语言编程，以及与Hadoop的无缝集成。重点讲解了RDD的概念，它是弹性分布式数据集，支持只读操作和并行计算。RDD可以通过cache/persist实现缓存，以提高迭代计算的速度。此外，文章还介绍了Spark的基本操作，包括Transformation和Action，以及其惰性执行策略。

摘要由CSDN通过智能技术生成

Spark背景

MapReduce的局限性

仅支持Map和Reduce两种操作，需要所有问题都转换成map和reduce，有些问题不好转换，代码比较冗余，编程不够灵活；
处理效率低:Map中间结果写磁盘，Reduce写HDFS，多个MR之间通过HDFS交换数据，所以Io开销大效率比较低；任务调度和启动开销大；无法充分利用内存；Map端和Reduce端均需要排序；
不适合迭代计算（如机器学习、图计算等），交互式处理（数据挖掘）和流式处理（点击日志分析）；

现有的各种计算框架各自为战

批处理：MapReduce、Hive、Pig
流式计算：Storm
交互式计算：Impala

Spark可以在一个统一的框架下，进行批处理、流式计算、交互式计算

Spark特点

高效：内存计算引擎，可以选择写到内存还是写到硬盘，提供Cache机制来支持反复迭代计算或者多次数据共享，减少数据读取的IO开销；DAG引擎，减少多次计算之间中间结果写到HDFS的开销；使用多线程池模型来减少task启动开稍，shuffle过程中避免，不必要的sort操作以及减少磁盘IO操作，MR是进程式，每个TASK就是一个进程，需要启动一个JVM虚拟机，所以比较耗费资源，SAPK是

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

GaryBigPig CSDN认证博客专家 CSDN认证企业博客

码龄7年

21: 原创

26万+: 周排名

105万+: 总排名

5万+: 访问

: 等级

830: 积分

12: 粉丝

19: 获赞

10: 评论

68: 收藏

私信

关注

热门文章

分类专栏

Tensorflow 6篇
Python 1篇
算法 1篇
Spark 5篇
Hadoop 8篇

最新评论

Spark学习笔记： Spark Streaming
CSDN-Ada助手: 非常感谢博主分享关于Spark Streaming的学习笔记，我觉得这样的技术文章对其他用户学习Spark Streaming会非常有帮助。下一篇你可以继续就Spark Streaming的优化和实践经验继续写，相信会有更多读者受益。加油！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
Hadoop学习笔记：一致性服务系统Zookeeper
彼方: 好文，大赞
Hadoop学习笔记：一致性服务系统Zookeeper
Cdf（人名）: 学习佳作，顺手点赞与关住,期待大佬回访！
Hadoop学习笔记：一致性服务系统Zookeeper
Lansonli: 博主原创不容易啊，过来支持一下哈，最近在更新大数据系列文章，有兴趣可以关注看看~
Hadoop学习笔记：一致性服务系统Zookeeper
泰山AI: 牛蛙牛蛙，以后跟着大佬学习

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。