【Spark】01.Spark框架

做一只精致IT小白

已于 2022-03-18 15:26:33 修改

阅读量1.7k

点赞数 1

分类专栏：数据仓库 Spark 文章标签： spark big data 数据仓库

于 2022-03-16 22:56:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42969976/article/details/123538735

版权

数据仓库同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

Spark是一种由Scala语言开发的快速、通用、可扩展打大数据分析引擎，Spark更倾向于计算。

一次性数据计算
框架在处理数据的时候，会从存储设备中读取数据，进行逻辑操作，然后将处理的结果重新存储到介质中。
因此，MapReduce不适合迭代式数据开发。
但是Spark基于内存，当资源受到限制的时候，还是需要依赖MapReduce，因此不能完全代替。

SparkCore
提供Spark最基础与核心的功能，以下功能都是基于Core进行扩展

SparkSQL
Spark用来操作结构化数据

SparkStreaming
针对实时数据进行流式计算的组件

Spark运行环境

Spark作为数据处理框架和计算引擎，通常以yarn作为主流运行环境
Local模式

提交任务参数

spark-submit

参数	解释	可选值举例
–class	Spark程序中包含主函数的类
–master	Spark程序运行的模式	local[*] Yarn
–executor-memory 1G	指定每个executor可用内存为1G	根据集群配置
–total-executor-cores 2	指定所有executor使用的cpu核数为2个	根据集群配置
–executor-cores	指定每个executor使用的cpu核数	根据集群配置
application-jar	打包好的jar包，包含依赖	根据集群配置

高可用

基于Yarn调度资源环境

部署模式对比

模式	Spark安装机器数	需启动的进程	所属者	应用场景
Local	1	无	Spark	测试
Standalone	3	Master&Worker	Spark	单独部署
Yarn	1	Yarn&HDFS	Hadoop	混合部署

端口号

4040：查看spark-shell运行的任务情况端口
7077：Spark Master内部通讯端口
8080：Standalone模式下 MasterWeb端口
18080：历史服务器
8088：Yarn任务运行监控

做一只精致IT小白

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

做一只精致IT小白

博客等级

码龄6年

30
原创

91
点赞

62
收藏

84
粉丝

关注

私信

热门文章

分类专栏

MapReduce 3篇
Spark 4篇
Python 5篇
MySQL 1篇
Scala 2篇
Hive 3篇
数据仓库 14篇
调优 4篇
Java 4篇
Hadoop 3篇
Database 1篇

最新评论

DataWarehouse（总）数据仓库博客总览
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加条理清晰的目录；(3)增加除了各种控件外，文章正文的字数。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。