Spark
ckl_soft
加油!
展开
-
Spark:一个高效的分布式计算系统
概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习转载 2014-05-12 21:05:48 · 1066 阅读 · 0 评论 -
待看blog
一、引子 在Worker Actor中,每次LaunchExecutor会创建一个CoarseGrainedExecutorBackend进程,Executor和CoarseGrainedExecutorBackend是1对1的关系。也就是说集群里启动多少Executor实例就有多少CoarseGrainedExecutorBackend进程。 那么到底是如何分配Execu转载 2014-09-03 20:50:37 · 575 阅读 · 0 评论 -
Spark1.0.0 源码编译和部署包生成
Spark1.0.0的源码编译和部署包生成,其本质只有两种:Maven和SBT,只不过针对不同场景而已:Maven编译SBT编译IntelliJ IDEA编译(可以采用Maven或SBT插件编译),适用于开发人员部署包生成(内嵌Maven编译),适用于维护人员编译的目的是生成指定环境下运行Spark本身或开发Spark Application的JAR包,本次编译的目的生成运行在ha转载 2014-08-13 15:57:28 · 1068 阅读 · 0 评论 -
Spark on YARN--WordCount、TopK
1、首先利用http://dongxicheng.org/framework-on-yarn/spark-eclipse-ide/搭建好的Eclipse(Scala)开发平台编写scala文件,内容如下:import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._object HdfsWordCount {原创 2014-05-11 23:37:46 · 3671 阅读 · 0 评论 -
【血泪史】Spark:一个高效的分布式计算系统
转自:http://tech.uc.cn/?p=2116----------------------------------------------概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoo转载 2014-08-08 23:46:11 · 1241 阅读 · 0 评论 -
Interlij 13编译Spark程序生成jar包
1、创建项目spcreate new project->scala->NOT SBT->next->设置项目名称'sp'2、导入相关jar包File->Project Structure->Libraries->点绿色'+'->java->找到spark-assembly-1.0.0-hadoop2.2.0.jar->OK按照类似的方法导入scala-compiler.jar,原创 2014-08-03 20:02:33 · 1942 阅读 · 0 评论 -
Spark1.0 安装
1、下载Scala wget http://www.scala-lang.org/files/archive/scala-2.10.3.tgz tar xvzf scala-2.10.3.tgz -C /usr/local2、下载Spark wget http://www.apache.org/dist/incubator/spark/spark-0.9.0-inc原创 2014-05-10 22:03:23 · 1418 阅读 · 0 评论 -
常用的JIRA
Spark:issue.apache.org/jira/browse/sparkYARN :https://issues.apache.org/jira/browse/YARNHDFS:https://issues.apache.org/jira/browse/HDFSMapReduce:https://issues.apache.org/jira/browse/MAPREDUCE原创 2014-06-30 15:05:52 · 1187 阅读 · 0 评论 -
Spark-Dependency
1、Spark中采用依赖关系(Dependency)表示rdd之间的生成关系。Spark可利用Dependency计算出失效的RDD。在每个RDD中都存在一个依赖关系的列表 private var dependencies_ : Seq[Dependency[_]] = null用以记录各rdd中各partition的parent partition。2、Spark中存在两类Depe原创 2014-07-22 15:49:39 · 1320 阅读 · 0 评论 -
Shark0.9.0安装
Shark0.9.0错误如下:Starting the Shark Command Line ClientException in thread "main" java.lang.UnsupportedClassVersionError: org/apache/hadoop/hive/cli/CliDriver : Unsupported major.minor version 51.0原创 2014-05-13 09:47:12 · 1409 阅读 · 0 评论 -
Spark参数调优&&Tricks
spark对内存有一定的要求,内存不够会因为gc而oom。1、默认情况下,一个worker的内存0.6用于cache,0.4用于task,可以通过设置该值提高每个worker的cache大小spark.storage.memoryFraction 0.82、设置并行task数,提高reducer效率spark.default.parallelism 4这个在1.原创 2014-09-03 20:10:24 · 3168 阅读 · 0 评论