![](https://img-blog.csdnimg.cn/20210414153053303.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark
文章平均质量分 91
Spark相关
MelodyYN
实践
展开
-
Transformation转换算子
文章目录Transformation转换算子1、单Value类型map算子mapPartitions算子mapPartitionsWithIndex算子flatMap算子glom算子groupBy算子filter算子sample算子distinct算子coalesce算子repartition算子sortBy算子2、双Value类型算子交并差算子zip算子3、Key-Value类型算子partitionBy算子reduceByKey算子groupByKey算子aggregateByKey算子foldByKe原创 2022-02-11 21:07:16 · 824 阅读 · 0 评论 -
初始RDD
文章目录1、RDD介绍性质和特点RDD五大特性2、获取RDD的三种方式2.1 通过集合获取RDD分区算法2.2 从外部存储系统获取RDD分区算法1、RDD介绍RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。性质和特点弹性存储的弹性:内存与磁盘的自动切换容错的弹性:数据丢失可以自动恢复计算的弹性:计算出错重试机制分片的弹性:可根据需要重新分片分布式数据存储在集群的不同节点上RDD不存储数据RDD仅原创 2022-02-09 08:55:11 · 191 阅读 · 0 评论 -
Spark集群的三种模式
文章目录1、Spark的由来1.1 Hadoop的发展1.2 MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1 Standalone模式部署配置历史服务器配置高可用运行模式3.2 Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义:Hadoop主要解决,海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.1 Hadoop的发展Hadoop1.x存在的问题:Na原创 2022-02-08 20:24:50 · 2629 阅读 · 0 评论 -
Spark性能调优
一、分配资源最大调节分配资源:常用的资源调度模式有Spark Standalone和Spark On Yarn。比如说你的每台机器能够给你使用60G内存,10个cpu core,20台机器。那么executor的数量是20。平均每个executor所能分配60G内存和10个cpu core。1.增加executor数量:提升了并行度2.增加每个executor的CPU Core:提高了并行度3.增加每个executor的内存量:对于RDD的cache,减少了磁盘IO对于shuffle操作的re转载 2020-10-16 15:31:12 · 124 阅读 · 0 评论 -
Day01.Spark搭建和高可用
文章目录1.Spark搭建2.高可用配置1.Spark搭建1.下载 Spark 安装包, 下载时候选择对应的 Hadoop 版本https://archive.apache.org/dist/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz# 下载 Sparkcd /export/softwareswget https://archive.apache.org/dist/spark/spark-2.2.0/spark-2.2.0-bin-hadoop原创 2020-09-03 20:47:39 · 118 阅读 · 0 评论