- 博客(9)
- 资源 (2)
- 收藏
- 关注
原创 druid开发-druid编译
今天尝试编译druid-0.10版本的druid,在maven编译的时候会下载 总是在编译 druid-thrift-extensions 这个模块的时候失败,因为需要到http://maven.twttr.com/ 这个上面去下载一个jar包,由于国内的网络问题没有办法下载,今天尝试了很多方法,最终解决的方案是 在hosts文件里面增加一行。就可以编译通过了 199.16.156.89 ma
2017-10-27 00:01:53 1907
原创 Spark开发-Standalone模式
Standalone模式 在Spark Standalone模式中,spark集群有Master节点和worker节点组成,用户程序通过与master节点交互,申请所需的资源,Worker节点负责具体executor的启动运行。 以WordCount为例,Standalone模式下的应用程序的启动命令如下 ./bin/run-example org.apache.spark.examp
2017-10-24 23:06:24 633
原创 Spark开发-Local模式
部署及程序运行 Local模式,就是运行在本地,如果不加任何配置,Spark模式设置为Local模式,以WordCount为例,Local模式下的应用程序的启动命令如下 ./bin/run-example org.apache.spark.examples.JavaWordCount local 在WordCount代码的具体实现中,是根据用户传入的参数来选择运行的模式的,如果需要自己在代码中
2017-10-24 00:04:55 2669
原创 Spark开发-Spark运行模式及原理一
核心 1、介绍Spark的运行模块有哪几种 2、TaskScheduler和TaskSchedulerBackend介绍 3、Executor介绍spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行,而当以分布式集群的方式部署时,也有众多的运行模式可以供选择,这取决于集群的实际情况,底层的资源调度既可以依赖于外部的资源调度框架,
2017-10-23 00:28:03 634
转载 Spark开发-运行架构基本概念
1:基本术语 Application: 基于Spark的用户程序,包含了一个driver program 和 集群中多个的executor Driver Program :运行Application的main()函数并且创建SparkContext,通常用SparkContext代表Driver Program Executor: 是为某Application运行在worker node上的一
2017-10-13 00:31:06 516
原创 Spark开发-控制操作
控制操作 control operation1、cache(): this.type 2、persist(): this.type 3、persist(newLevel: StorageLevel, allowOverride: Boolean): this.type在spark中对RDD进行持久化操作是一项非常重要的功能,可以将RDD持久化在不同层次的存储介质中,以便后续的操作能够重复使用,这
2017-10-09 23:52:41 376
原创 Spark开发-RDD分区重新划分
repartition(numPartitions: Int):RDD[T] coalesce(numPartitions: Int, shuffle: Boolean = false):RDD[T]repartition和coalesce是对RDD的分区进行重新划分,repartition只是coalesce接口中shuffle为true的简易实现,所以这里主要讨论coalesce合并函数该如何
2017-10-09 23:36:21 2446
原创 Spark开发-RDD接口编程
一般情况下面RDD包括5个接口partition 分区,一个RDD会有一个或者多个分区 preferredLocations(P) 对于分区P而言,返回数据本地化计算的节点 dependencies() RDD的依赖关系 compute(p,context)
2017-10-03 23:57:07 1215
原创 Spark开发-广播变量
核心 1、什么是广播变量 2、为什么需要广播变量 3、案例什么是广播变量 Spark有两种共享变量——累加器、广播变量。广播变量可以让程序高效地向所有工作节点发送一个较大的只读值,以供一个或多个Spark操作使用。为什么需要广播变量 Spark中分布式执行的代码需要传递到各个Executor的Task上运行。对于一些只读、固定的数据(比如从DB中读出的数据),每次都需要Driver广播到各
2017-10-01 23:48:27 970
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人