- 博客(4)
- 资源 (2)
- 收藏
- 关注
原创 SparkContext原理解析和源码解析
SparkContext主要介绍下面几个点TaskSchedulerDAGSchedulerSparkUI环境是spark1.6.3TaskScheduler初始化机制createTaskScheduler()->TaskSchedulerImpl->SparkDeploySchedulerBackend->initialize()->ScheduleP...
2019-01-27 23:01:52 387
原创 Spark内核架构解析
本文主要介绍了spark运行的大概流程。已经每个组件大概做了什么工作1、Spark-submit提交的时候有多种方式,其实会通过反射的方式,创建和构造一个DriverActor进程出来2、在构造SparkContext的时候,构造出DAGScheduler和TaskScheduler3、DAGScheduler会将job划分为多个stage,然后每个stage创建一个Taskset4、T...
2019-01-24 23:32:13 379
原创 Spark中topN和groupTopn讲解
Spark中topN和groupTopn讲解说谎和沉默可以说是现在人类社会里日渐蔓延的两大罪恶。事实上,我们经常说谎,动不动就沉默不语。——村上春树本文主要介绍了Spark中去topN的操作和分组取topN的操作topN的实现思路:1、首先我们需要采用PairRDD的方式来存储数据对象,PairRDD里面的key和value尽量都保存成一样的2、在采用sortByKey对key进行排序3、在采用M...
2019-01-14 01:26:25 1250
原创 Spark二次排序的操作
二次排序原理二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果例如输入这样的文件,xlucas1 18 aaxlucas2 18 bbxlucas 19 ccaa 20 xlucasaa 17 xlucasxlucas1 17 ccyy 29 xlucas希望输出的结果是从大到小排序yy 29 xlucasxlucas...
2019-01-03 00:24:31 495
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人