![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 94
Dreammmming Time
人啊,毕业时意气风发,进入社会后就逐渐钝化了,因此希望通过知识分享和新知识学习,在大数据领域彼此勉励,共同成长,拒绝被环境束缚。
展开
-
Spark原理之Cache Table的工作原理及实现自动缓存重复Table Scan的思考
CACHE TABLE,可以让用户自定义要缓存的结果集,实际上就是一个临时表,不过数据存储在Spark集群内部,由Application所分配的executors管理。一旦定义了一个缓存表,就可以在SQL脚本中随处引用这个表名,提高数据检索速度,同时也会资源不必要的资源开销。原创 2024-04-26 15:25:18 · 1007 阅读 · 4 评论 -
Spark ShuffleMap任务的生成、执行及数据跟踪流程
RDD抽象类的定义我们知道Spark中的一个可以用户计算的数据集,被抽象成了一个RDD,如下是RDD的类定义(这里只保留了类中关键的成员变量):abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, @transient private var deps: Seq[Dependency[_]] ) extends Serializable with Logging { /** A u原创 2021-04-22 22:53:22 · 480 阅读 · 0 评论