![](https://img-blog.csdnimg.cn/20190918140158853.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
spark
文章平均质量分 79
spark的简单使用
First_____
这个作者很懒,什么都没留下…
展开
-
Spark05_Streaming的使用
概述介绍:SparkStreaming是一种用于流式数据的处理,准实时(秒级, 分钟)数据处理, 微批量数据处理的一种方式Spark Streaming 使用离散化流(discretized stream)作为抽象表示,叫作 DStream。DStream 就是对 RDD 在实时数据处理场景的一种封装。图解:背压机制背压机制(即 Spark Streaming Backpressure): 根据JobScheduler 反馈作业的执行信息来动态调整 Receiver 数据接收率。通原创 2021-08-10 00:06:49 · 142 阅读 · 1 评论 -
Spark04_Sql的基本用法
sql的基本操作及方法使用注: 在spark启动的cmd客户端,sc表示(RDD):sparkContext spark(Sql)表示: sparkSession方法spark.read:读取指定文件write.save: 保存文件format: 保存为指定格式或读取指定格式show: 进行展示数据createTempView: 创建临时视图createOrReplaceTempView:创建临时视图,会替换掉相同名字的视图createOrReplaceGlobalTempView:创原创 2021-08-09 02:19:32 · 354 阅读 · 0 评论 -
Spark03_工作流程图解
1.环境准备工作流程:yarn模式的 cluster部署模式主要有两条工作线:注册环境相关应用程序,节点Driver端继续执行相关算子注: 最后将算子的task交给Executor来进行执行流程图概述:yarn模式的 client部署模式:其实和cluster模式大致相同,不同的部分主要为Driver的放置位置不同:cluster:将Driver放置在集群的ApplicationMaster当中client :将Driver放置在集群外边组件通信阶段的划分任务的切分原创 2021-08-05 22:10:32 · 337 阅读 · 0 评论 -
Spark02——三大数据结构
因为RDD的实现原理和IO的实现原理差不多,我们先来说一下IO的实现原理:其实真正进行读取数据的还是FileInputStreamIO实现原理图解:RDD的工作流程:RDD不会存储数据;RDD也有装饰者模式;RDD只有调用collect方法,才会真正执行业务逻辑代码,封装操作都是对RDD的功能扩展为了保证并行度,会先进行分区:RDD的特点:介绍:RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。➢原创 2021-07-25 00:13:15 · 808 阅读 · 2 评论 -
Spark01——基本使用
下面介绍的是spark的几种运行的模式:本地模式, 分布式(standalone)和 yarn模式,还有配置高可用和配置历史服务本地模式将解压后的文件直接执行下面命令,bin/spark-shell提交应用:1 bin/spark-submit 1 --class org.apache.spark.examples.SparkPi 1 --master local[2] `1 ./examples/jars/spark-examples_2.12-3.0.0.jar 1 10原创 2021-07-24 02:30:09 · 223 阅读 · 0 评论