![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 96
十二同学啊
这个作者很懒,什么都没留下…
展开
-
SparkCore 学习笔记
RDD概述1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.2 RDD特点(1)弹性存储的弹性:内存于磁盘的自动切换容错的弹性:数据丢失可以自动恢复计算的弹性:计算出错重试机制分片的弹性:可根据需要重新分片(2)分布式数据存储在大数据集群不同节点(3)数据集,不存储数据RDD封装了计算逻辑,并不保存数据(原创 2021-08-02 17:02:32 · 334 阅读 · 0 评论 -
SparkStreaming 学习笔记
SparkStreaming概述1.1 Spark Streaming是什么Spark Streaming用于流式数据的处理1.Spark Streaming支持的数据输入源头很多,例如:Kafka,Flume,HDFS等2.数据输入后可以用Spark的高度抽象原语如:map,reduce,join,window等3.而结果也能保存在很多地方,如HDFS,数据库等1.2 Spark Streaming架构原理1.2.1 什么是DStream1.2.2 架构图整体架构图SparkStr原创 2021-07-28 20:59:51 · 261 阅读 · 0 评论 -
Spark 运行模式
部署Spark集群大体上分为两种模式:单机模式与集群模式大多数分布式框架都支持单机模式,方便开发者调试框架的运行环境。但是在生产环境中,并不会使用单机模式。因此,后续直接按照集群模式部署Spark集群。下面详细列举了Spark目前支持的部署模式。(1)Local模式:在本地部署单个Spark服务(2)Standalone模式:Spark自带的任务调度模式。(国内常用)(3)YARN模式:Spark使用Hadoop的YARN组件进行资源与任务调度。(国内常用)(4)Mesos模式:Spark使用M原创 2021-07-23 16:12:40 · 1005 阅读 · 0 评论 -
SparkSQL 学习笔记
Spark SQL概述1.1 什么是Spark SQLSpark SQL是spark用于结构化数据处理的Spark模块1.2 为什么要有Spark SQL1.3 Spark SQL原理1.3.1 什么是DataFrame1)DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。2)DataFrame与RDD的主要区别在于,前者带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。左侧的RDD[Person]虽然以Person为原创 2021-07-28 10:38:00 · 399 阅读 · 0 评论