![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
bigdata_06_Spark
文章平均质量分 71
大数据Spark
最佳第六六六人
一只威武的大数据架构攻城狮
展开
-
SparkSQL的优化:(Spark on Hive)
SparkSQL的优化:(Spark on Hive)(1)内存优化①合理设置资源配置–num-executors executor的个数–executor-memory 每个executor的内存–driver-memory Driver端的内存②DS和DF的缓存持久化DS和DF默认的缓存级别是MEMORY_AND_DISK③DS和DF并不是使用java序列化和kryo序列化,而是有一个特殊的序列化方式(2)分区和参数设置①SparkSQL默认shuffle的分区个数为200,由sp原创 2021-03-29 00:27:41 · 1008 阅读 · 0 评论 -
Spark性能调优
Spark的优化(1)最优资源配置①增加Executor个数,在资源允许的情况下,增加Executor个数可以提高task并行度。比如有4个Executor,每个Executor有2个core,那么可以并行执行8个task。–num-executors②增加每个Executor的CPUcore数,–executor-cores③增加每个Executor的内存,可以缓存更多数据,可以为shuffle提供更多内存,可以为task执行提供更多内存–executor-memory(2)RDD优化①原创 2021-03-28 17:36:00 · 140 阅读 · 0 评论 -
大数据9_04_Spark内核源码详细解析
1 Spark内核概述Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理。1.1 Spark核心组件(1)Yarn(RM & NM)(2)Spark(AM & Driver & Executor)①DriverSparK驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作。Driver在Spark作业执行时主要负责:将用户程序转化为原创 2020-12-15 00:20:59 · 538 阅读 · 1 评论 -
大数据9_03_SparkStreaming原理及应用
1 SparkStreaming概述SparkStreaming是一个微批次,准实时的数据处理框架。SparkStreaming用于流式数据处理。1.1 流处理、批处理、实时处理、离线处理从数据处理方式的角度:流式处理:一条数据一条数据的处理,就是流处理批量处理:一批数据一起处理从数据处理延迟的角度:实时处理:延迟的时间以毫秒为单位 => Flink准实时处理:延迟的时间以秒、分钟为单位 => SparkStreaming离线处理:延迟的时间以小原创 2020-12-15 00:19:59 · 352 阅读 · 0 评论 -
大数据9_02_SparkSQL原理及应用
1 SparkSQL概述Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块1.1 Spark的由来Hive是早期唯一运行在Hadoop上的SQL-on-Hadoop工具 => 之后又出现:Drill、Impala、SharkSpark的前身是Shark,Shark使得SQL-on-Hadoop的性能比Hive提高了10-100倍。SparkSQL抛弃了Shark的代码,汲取了Shark的一些优点,性能得到极大提升:数据兼容方面:Sp原创 2020-12-15 00:19:01 · 424 阅读 · 1 评论 -
大数据9_01_Spark核心编程RDD
5 Spark核心编程Spark提供三种数据结构:RDD(弹性分布式数据集)、累加器(分布式共享只写变量)、广播变量(分布式共享只读变量)5.1 RDDRDD(Resilient Distributed Dataset)弹性分布式数据集。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。弹性:存储的弹性:内存与磁盘的自动切换容错的弹性:数据丢失可以自动恢复计算的弹性:计算出错重试机制分片的弹性:可根据需要重新分片分布式:数据存储在大数据集群不同原创 2020-12-11 14:00:06 · 541 阅读 · 0 评论 -
大数据9_01_Spark概述与架构原理
1 Spark概述Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.1 Hadoop & Spark时间节点对比:2013年10月发布2.X (Yarn)版本;2013年6月,Spark成为了Apache基金会下的项目功能对比:Hadoop是由java语言编写的;Spark是由scala语言编写的Spark和Hadoop的根本差异是多个作业之间的数据通信问题 :Spark多个作业之间数据通信是基于内存,而Hadoop是基于磁盘。原创 2020-12-11 13:56:57 · 172 阅读 · 0 评论 -
Spark-RDD编程-13种方式求WordCount
object WordCount12 { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[*]").setAppName("WordCount") val sc = new SparkContext(conf) val lines: RDD[String] = sc.textFile("word.txt") val words: RDD[String]原创 2020-11-30 10:04:54 · 255 阅读 · 0 评论