![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
李大洲
我有一壶酒,足以慰风尘。尽倾江海里,赠饮天下人。
展开
-
Spark数据倾斜问题
数据倾斜问题经常会遇到,今天总结一下:Spark 中的数据倾斜问题主要指 shuffle 过程中出现的数据倾斜问题,是由于不同的 key 对应的数据量不同导致的不同 task 所处理的数据量不同的问题。例如, reduce 点一共要处理 100 万条数据, 第一个和第二个 task 分别被分配到了 1 万条数据, 计算 5 分钟内完成, 第三个 task 分配到了 98 万数据,此时第三个...原创 2019-05-17 21:15:28 · 420 阅读 · 0 评论 -
Spark Streaming从Kafka中接收数据的两种方式
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...转载 2019-09-22 13:21:48 · 529 阅读 · 1 评论 -
Spark之Shuffle
Spark有三种shuffle,分别是hash shuffle、sort shuffle、Tungsten Shuffle。1、HashShuffle适合小数据的场景,对小规模数据的处理效率比排序的shuffle高。1) 每一个Mapper创建出和Reducer数目相同的bucket,bucket实际上是一个buffer,其大小为spark.shuffle.file.buf...原创 2019-09-23 20:55:31 · 944 阅读 · 0 评论 -
Spark之内存管理
在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job),并将作业转化为计算任务(Task),在各个 Executor 进程间协调任务的调度,后者负责在工作节点上执行具体的计算任务,并将结果返回给 Driver,同时为需要持久化的 RDD 提供存储功能。主要对 E...原创 2019-09-24 13:19:00 · 202 阅读 · 0 评论 -
Spark之核心组件
一、Spark核心组件实际工作中,会使用YARN Cluster模式。Spark在执行过程中懒执行,直到action操作时才触发job,之后根据宽依赖划分stage,stage被整理成TaskSet,TaskSet里面有多个task,每个task被分发到具体的executor里执行。1、DriverSpark驱动节点,用于执行Spark任务中的main方法,负责实际代码的执行工作。Dr...原创 2019-10-04 14:06:10 · 1102 阅读 · 0 评论