spark
文章平均质量分 70
spark的基础知识
勤奋的ls丶
这个作者很懒,什么都没留下…
展开
-
Spark之Spark Streaming
Spark Streaming是什么Spark Streaming用于流式数据处理DStream是什么Spark Streaming使用离散化流作为抽象表示,称作DStream,是随着时间的推移而得到的数据的序列。在DStream内部,每个时间区间收到的数据都作为RDD存在,DStream就是由这些RDD所组成的序列,DStream就是对RDD在实时处理场景中的一种封装。架构图DStream的创建 1.通过RDD队列 ...原创 2022-02-18 19:12:29 · 2261 阅读 · 0 评论 -
Spark之SparkSQL
什么是SparkSQLSparkSQL是Spark用于结构化数据处理的模块SparkSQL的原理SparkSQL提供了两个编程抽象,DataFrame和DataSetDataFrame 1)DataFrame是一种类似RDD的分布式数据集,类似于传统数据库中的二维表格。2)DataFrame与RDD的主要区别在于,DataFrame带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。...原创 2022-02-16 20:49:20 · 4300 阅读 · 0 评论 -
Spark之行动算子
因为转换算子都是懒加载,并不会立即执行,遇到行动算子才执行。目录1.reduce()2.collect()3.count()4.first()5.take()6.takeOrdered()7.aggregate()8.fold()9.countByKey()10.save11.foreach()1.reduce()聚合,f函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。 val listRDD: RDD[Int] ...原创 2022-02-14 09:29:10 · 359 阅读 · 0 评论 -
Spark之累加器
一、系统累加器累加器:分布式共享只写变量。(Executor和Executor之间不能读数据)累加器用来把Executor端变量信息聚合到Driver端。在Driver中定义的一个变量,在Executor端的每个task都会得到这个变量的一份新的副本,每个task更新这些副本的值后,传回Driver端进行合并计算。定义:SparkContext.accumulator(initialValue)方法object accumulator01_system ...原创 2022-02-12 16:39:50 · 3670 阅读 · 0 评论 -
Spark之RDD转换算子
目录一.value类型1.map()2.mapPartitions()3.mapPartitionsWithIndex()4.flatMap()扁平化5.glom()6.groupBy()7.filter()8.sample()9. distinct()10.coalesce()11.repartition()12.sortBy()13. pipe()二、双value1.intersection()2.union()3.s...原创 2022-02-11 20:49:35 · 998 阅读 · 0 评论 -
Spark之RDD分区规则
1.RDD数据从集合中创建a.不指定分区 从集合创建rdd,如果不手动写分区数量的情况下,默认分区数跟本地模式的cpu核数有关local : 1个 local[*] : 笔记本所有核心数 local[K]:K个b.指定分区object fenqu { def main(args: Array[String]): Unit = { val conf: SparkConf = new SparkConf().setMaste...原创 2022-02-11 19:09:15 · 541 阅读 · 0 评论 -
Spark之RDD创建方式
在Spark中创建RDD的创建方式可以分为三种:从集合中创建RDD、从外部存储创建RDD、从其他RDD创建。创建时环境依赖<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version&g...原创 2022-02-11 18:56:37 · 792 阅读 · 0 评论 -
Spark之RDD概述
一、什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.弹性:存储的弹性:内存与磁盘自动切换容错的弹性:数据丢失可以自动恢复计算的弹性:计算出错重试机制 分片的弹性:可根据需要重新分片2.分布式 数据...原创 2022-02-11 18:49:47 · 1005 阅读 · 0 评论 -
Spark概述与使用
目录一、Spark概述1.1spark框架与hadoop框架1.2Spark的内置模块1.3Spark的特点二、Spark的使用2.1Spark的运行模式2.2Local模式2.3Spark集群中的角色介绍2.4Standalone模式2.5YARN模式三、WordCount案例一、Spark概述Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.1spark框架与hadoop框架1.2Spark的内...原创 2022-02-08 19:55:16 · 728 阅读 · 0 评论