【Spark】01.Spark框架

Spark是一种由Scala语言开发的快速、通用、可扩展打大数据分析引擎,Spark更倾向于计算。

一次性数据计算
框架在处理数据的时候,会从存储设备中读取数据,进行逻辑操作,然后将处理的结果重新存储到介质中。
因此,MapReduce不适合迭代式数据开发。
但是Spark基于内存,当资源受到限制的时候,还是需要依赖MapReduce,因此不能完全代替。

SparkCore
提供Spark最基础与核心的功能,以下功能都是基于Core进行扩展

SparkSQL
Spark用来操作结构化数据

SparkStreaming
针对实时数据进行流式计算的组件

Spark运行环境

Spark作为数据处理框架和计算引擎,通常以yarn作为主流运行环境
Local模式

提交任务参数

spark-submit

参数解释可选值举例
–classSpark程序中包含主函数的类
–masterSpark程序运行的模式local[*] Yarn
–executor-memory 1G指定每个executor可用内存为1G根据集群配置
–total-executor-cores 2指定所有executor使用的cpu核数为2个根据集群配置
–executor-cores指定每个executor使用的cpu核数根据集群配置
application-jar打包好的jar包,包含依赖根据集群配置

高可用

基于Yarn调度资源环境

部署模式对比

模式Spark安装机器数需启动的进程所属者应用场景
Local1Spark测试
Standalone3Master&WorkerSpark单独部署
Yarn1Yarn&HDFSHadoop混合部署

端口号

4040:查看spark-shell运行的任务情况端口
7077:Spark Master内部通讯端口
8080:Standalone模式下 MasterWeb端口
18080:历史服务器
8088:Yarn任务运行监控

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值