2017年10月_Xlucas

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 druid开发-druid编译

今天尝试编译druid-0.10版本的druid，在maven编译的时候会下载总是在编译 druid-thrift-extensions 这个模块的时候失败，因为需要到http://maven.twttr.com/ 这个上面去下载一个jar包，由于国内的网络问题没有办法下载，今天尝试了很多方法，最终解决的方案是在hosts文件里面增加一行。就可以编译通过了 199.16.156.89 ma

2017-10-27 00:01:53 1907

原创 Spark开发-Standalone模式

Standalone模式在Spark Standalone模式中，spark集群有Master节点和worker节点组成，用户程序通过与master节点交互，申请所需的资源，Worker节点负责具体executor的启动运行。以WordCount为例，Standalone模式下的应用程序的启动命令如下 ./bin/run-example org.apache.spark.examp

2017-10-24 23:06:24 633

原创 Spark开发-Local模式

部署及程序运行 Local模式，就是运行在本地，如果不加任何配置，Spark模式设置为Local模式，以WordCount为例，Local模式下的应用程序的启动命令如下 ./bin/run-example org.apache.spark.examples.JavaWordCount local 在WordCount代码的具体实现中，是根据用户传入的参数来选择运行的模式的，如果需要自己在代码中

2017-10-24 00:04:55 2669

原创 Spark开发-Spark运行模式及原理一

核心 1、介绍Spark的运行模块有哪几种 2、TaskScheduler和TaskSchedulerBackend介绍 3、Executor介绍spark的运行模式多种多样，灵活多变，部署在单机上时，既可以用本地模式运行，也可以用伪分布模式运行，而当以分布式集群的方式部署时，也有众多的运行模式可以供选择，这取决于集群的实际情况，底层的资源调度既可以依赖于外部的资源调度框架，

2017-10-23 00:28:03 634

转载 Spark开发-运行架构基本概念

1：基本术语 Application：基于Spark的用户程序，包含了一个driver program 和集群中多个的executor Driver Program ：运行Application的main()函数并且创建SparkContext，通常用SparkContext代表Driver Program Executor：是为某Application运行在worker node上的一

2017-10-13 00:31:06 516

原创 Spark开发-控制操作

控制操作 control operation1、cache(): this.type 2、persist(): this.type 3、persist(newLevel: StorageLevel, allowOverride: Boolean): this.type在spark中对RDD进行持久化操作是一项非常重要的功能，可以将RDD持久化在不同层次的存储介质中，以便后续的操作能够重复使用，这

2017-10-09 23:52:41 376

repartition(numPartitions: Int):RDD[T] coalesce(numPartitions: Int, shuffle: Boolean = false):RDD[T]repartition和coalesce是对RDD的分区进行重新划分，repartition只是coalesce接口中shuffle为true的简易实现，所以这里主要讨论coalesce合并函数该如何

2017-10-09 23:36:21 2446

原创 Spark开发-RDD接口编程

一般情况下面RDD包括5个接口partition 分区，一个RDD会有一个或者多个分区 preferredLocations(P) 对于分区P而言，返回数据本地化计算的节点 dependencies() RDD的依赖关系 compute(p,context)

2017-10-03 23:57:07 1215

原创 Spark开发-广播变量

核心 1、什么是广播变量 2、为什么需要广播变量 3、案例什么是广播变量 Spark有两种共享变量——累加器、广播变量。广播变量可以让程序高效地向所有工作节点发送一个较大的只读值，以供一个或多个Spark操作使用。为什么需要广播变量 Spark中分布式执行的代码需要传递到各个Executor的Task上运行。对于一些只读、固定的数据(比如从DB中读出的数据),每次都需要Driver广播到各

2017-10-01 23:48:27 970

selenium2.53包

此包包含了IE、google的驱动文件，是selenium2.53的软件，详细的环境搭建请查看博客

2016-10-08

selenium2.53软件包

自动化测试selenium2.53软件包，包含了ide 和IE、google的驱动包

2016-10-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Xlucas的博客