spark
学不会的大数据
这个作者很懒,什么都没留下…
展开
-
spark提交job任务,源码分步骤拆解
spark任务详解流程分步骤拆解详细流程提交任务DAG图创建计算task运行的最佳位置taskset创建taskSet执行流程spark客户端提交job通过反射创建driver进程driver创建sparkContext对象初始化sparkContext过程中,构建DAGScheduler和TaskSchedulerTaskScheduler根据后台进程去连接Master向Maste...原创 2020-05-02 12:01:37 · 222 阅读 · 0 评论 -
spark之rdd详解
spark之rdd详解rdd基本概念rdd(resilient distributed dataset弹性分布式数据集合),其实就是数据的集合,但由于在大数据的场景下,需要更高的算力,需要更多的存储空间,所以将普通的数据集合进行一定的规划,但是对外仍然像操作普通数据集合一样,这本质上是java的封装思想,和hdfs一样对数据进行封装,底层架构使得数据容错性更强,算力更高,扩容更方便.rdd的...原创 2020-04-28 22:50:03 · 422 阅读 · 0 评论