Spark概述极其运行模式,2024年最新涨姿势

本文介绍了Spark的三种运行模式:standalone、Spark on Mesos和Spark on YARN,详细解析了每种模式的工作原理和应用场景。其中standalone模式由Master和Slave构成,资源分配单位为槽;Spark on Mesos利用Mesos进行资源调度;Spark on YARN模式下,根据Driver位置分为YARN-Client和YARN-Cluster,适合多计算框架共存的环境。此外,文章还提及了大数据学习资源分享。
摘要由CSDN通过智能技术生成

2.非结构化数据:不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。

3.半结构化数据:就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。

spark通用性指的什么?

Spark SQL(即席查询),Spark Streaming(实时流处理),Spark MLlib(机器学习库),Spark GraphX(图计算)

spark 的组件

1 Spark Core
包含了Spark的基本功能,包含任务调度,内存管理,容错机制等等。
内部定义了RDD(弹性分布式数据集)
提供了很多APIs来创建和操作这些RDD
应用场景:为其他组件提供底层的服务
2 Spark SQL
是Spark处理结构化数据的库,就像Hive SQL,Mysql一样。
应用场景:企业中用来做报表统计
3

  • 27
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值