Spark基础

anyshk

已于 2024-03-04 22:59:35 修改

阅读量787

点赞数 7

分类专栏：大数据文章标签： spark 大数据分布式

于 2024-03-04 22:30:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/anyshk/article/details/136454979

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、Spark介绍

1. Spark是一个分布式计算框架，和MapReduce的作用一样，完成数据的计算。

2. 与MapReduce的区别：

（1）spark是基于内存计算，会将中间结果存放在内存，方便后续计算的使用，而MapReduce会将中间结果存储在磁盘上。

内存数据的读写速度要比磁盘快得多，所以Spark的计算速度要比MapReduce快；
Presto也是基于内存计算的，Presto不适合海量数据处理，而且不能创建库表。Spark对海量数据在内存上的计算做了优化，内存不足时会保存在磁盘上。

（2）Spark的计算任务是由线程完成的。MapReduce的计算任务是由进程完成的。

线程切换计算任务的速度比进程切换计算任务速度快。
MapReduce进程计算任务的中间结果传递给reduce进程。

3. Spark和MapReduce的计算思想是一样的，分布式计算框架思想——“分而治之”。

4. Spark是用Scala语言编写完成，MapReduce则是Java语言开发，Scala言的本质是对Java语言的二次开发，底层还是依赖于Java的JVM、修改调整Java语言的缺点等，形成Scala。

5. Spark是Apache基金会下的顶级开源项目，即有专门团队开发、维护该项目。

二、Spark特性

1. 高效性

基于内存计算
线程完成计算任务执行

2. 易用性

支持多种语言开发（Python，Java，Scala，SQL，R），降低了学习难度
机器学习方向，最终还是Python

3. 通用性

支持多种计算方式
①SQL计算（离线计算）【MapRedudce只支持】
②图计算
③机器学习计算
④流式数据计算（实时仓库中使用）【Spark可以】
支持多种开发方式
①交互式开发
②脚本式开发（通过编写代码文件完成程序运行）

4. 兼容性

（1）支持第三方工具接入

计算时读写数据时，存储工具有
hdfs
kafka
hbase
资源调度服务
yarn
stanalone（Spark自带的）
高可用
zookeeper

（2）支持多种操作系统

Linux
Windows
Mac

三、Spark架构（熟悉）

工具层：可以使用哪些工具去操作Spark
核心层：PDD执行计算
资源调度服务：yarn、standalone、配置文件位置调度方式
存储层：数据读写机写入，比如hdfs、hbase、kafka

四、Spark部署方式（熟悉）

1. Local模式部署，即本地模式部署

使用一台服务品进行部署，—股用于测试代码，在本地能运行成功的代码在集群下也能运行

2. Cluster模式部署，即集群模式部署

集群需要多台服务器
多台服务器的资源需要统一管理，使用资源调度服务
Standalone
Yarn

3. 云服务

使用云服务供应商提供的服务，比如阿里云

关注

7
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
Spark基础

Spark是一个分布式计算框架，和MapReduce的作用一样，完成数据的计算。与MapReduce的区别：spark是基于内存计算，会将中间结果存放在内存，方便后续计算的使用，而MapReduce会将中间结果存储在磁盘上。内存数据的读写速度要比磁盘快得多，所以Spark的计算速度要比MapReduce快；Presto也是基于内存计算的，Presto不适合海量数据处理，而且不能创建库表。Spark对海量数据在内存上的计算做了优化，内存不足时会保存在磁盘上。
复制链接

扫一扫

专栏目录

anyshk CSDN认证博客专家 CSDN认证企业博客

码龄2年

11: 原创

145万+: 周排名

13万+: 总排名

4232: 访问

: 等级

203: 积分

51: 粉丝

83: 获赞

7: 评论

65: 收藏

私信

关注

热门文章

分类专栏

前端 2篇
Vue 1篇
大数据 1篇

最新评论

Vue开发环境
CSDN-Ada助手: 恭喜您撰写了第11篇博客！对于Vue开发环境的分享让我受益匪浅。接下来，我希望您可以深入探讨Vue在实际项目中的应用，或者分享一些Vue开发中的实用技巧和经验。期待您的下一篇文章！祝您创作愉快！
什么是Vue.js
CSDN-Ada助手: 恭喜博主第10篇博客的发布！关于“什么是Vue.js”的解析让我受益匪浅。希望博主能够继续分享关于Vue.js的知识，或者尝试探讨一些Vue.js在实际项目中的应用经验，相信这样的内容也会备受期待。期待博主的下一篇作品！
三句话搞定Python类型转换
CSDN-Ada助手: 恭喜你写了这篇有用的博客！三句话搞定Python类型转换，简洁明了，让人受益匪浅。希望你能继续分享更多关于Python的知识，或者可以尝试写一些实用的代码示例，让读者更直观地理解。加油！期待你更多的创作！
关于Python的输入
CSDN-Ada助手: 恭喜您发布了关于Python的输入的博客！持续创作是非常棒的，您的文章无疑会帮助到更多学习Python的人。接下来，也许可以考虑分享一些Python的输出相关的知识，或者是一些实用的Python编程技巧。希望您继续保持创作，为大家带来更多有价值的内容！努力！
Python编码问题
CSDN-Ada助手: 恭喜您写了第6篇博客！Python编码问题是一个很有深度的话题，您的文章对此进行了深入的探讨，让人受益匪浅。希望您能继续坚持写作，分享更多关于Python编程的经验和心得。或许下一步可以考虑分享一些实际应用案例，让读者更好地理解和运用Python编程。期待您更多精彩的创作！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。