自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (2)
  • 收藏
  • 关注

原创 SparkContext原理解析和源码解析

SparkContext主要介绍下面几个点TaskSchedulerDAGSchedulerSparkUI环境是spark1.6.3TaskScheduler初始化机制createTaskScheduler()->TaskSchedulerImpl->SparkDeploySchedulerBackend->initialize()->ScheduleP...

2019-01-27 23:01:52 387

原创 Spark内核架构解析

本文主要介绍了spark运行的大概流程。已经每个组件大概做了什么工作1、Spark-submit提交的时候有多种方式,其实会通过反射的方式,创建和构造一个DriverActor进程出来2、在构造SparkContext的时候,构造出DAGScheduler和TaskScheduler3、DAGScheduler会将job划分为多个stage,然后每个stage创建一个Taskset4、T...

2019-01-24 23:32:13 379

原创 Spark中topN和groupTopn讲解

Spark中topN和groupTopn讲解说谎和沉默可以说是现在人类社会里日渐蔓延的两大罪恶。事实上,我们经常说谎,动不动就沉默不语。——村上春树本文主要介绍了Spark中去topN的操作和分组取topN的操作topN的实现思路:1、首先我们需要采用PairRDD的方式来存储数据对象,PairRDD里面的key和value尽量都保存成一样的2、在采用sortByKey对key进行排序3、在采用M...

2019-01-14 01:26:25 1250

原创 Spark二次排序的操作

二次排序原理二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果例如输入这样的文件,xlucas1 18 aaxlucas2 18 bbxlucas 19 ccaa 20 xlucasaa 17 xlucasxlucas1 17 ccyy 29 xlucas希望输出的结果是从大到小排序yy 29 xlucasxlucas...

2019-01-03 00:24:31 495

selenium2.53包

此包包含了IE、google的驱动文件,是selenium2.53的软件,详细的环境搭建请查看博客

2016-10-08

selenium2.53软件包

自动化测试selenium2.53软件包,包含了ide 和IE、google的驱动包

2016-10-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除