spark
lm709409753
天道酬勤
展开
-
spark环境编译
spark环境的搭建和联系spark包括SparkCore: 核心部分SparkSQL: Spark中交互式处理模块SparkStreaming: Spark中流式数据处理的模块SparkMLib:Spark机器学习相关模块 => MahoutSparkGraphX: Spark中图形计算的模块编译spark配置文件修改 make-distribution.sh文件(:130,跳转到相应的原创 2017-01-07 19:48:25 · 647 阅读 · 0 评论 -
学习spark的网站
http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html原创 2017-01-08 17:37:54 · 53917 阅读 · 0 评论 -
spark一些总结
sparkSpark 对待 转化操作和行动操作的方式很不一样,因此理解你正在进行的操作的类型是很重要的。如 果对于一个特定的函数是属于转化操作还是行动操作感到困惑,你可以看看它的返回值类 型:转化操作返回的是 RDD,而行动操作返回的是其他的数据类型。转化出来的 RDD 是惰性 求值的,只有在行动操作中用到这些 RDD 时才会被计算RDD 还有一个 collect() 函数,可以用来获取整 个原创 2017-01-08 19:35:59 · 322 阅读 · 0 评论 -
spark本地模式和Standalone配置
local模式非常适合作业的开发调试,配置也很简单,把编译好的文件解压,然后配置即可使用。使用自己编译产生的tgz压缩包 步骤: 前提:安装Scala(2.10.4)和JDK(1.7.x+) - 解压 ln -s spark-1.6.0-bin-2.5.0/ spark - 修改相关参数 到/spark/conf目录下修改文件 vim spark-env.sh原创 2017-01-13 19:36:59 · 3878 阅读 · 0 评论 -
spark的standalone的HA配置
High Availability By default, standalone scheduling clusters are resilient to Worker failures (insofar as Spark itself is resilient to losing work by moving it to other workers). However, the schedule原创 2017-01-14 15:18:39 · 378 阅读 · 0 评论 -
spark一些优化
选择一个对的API资源参数调优资源:内存&&CPU&&GC bin/spark-submit --help 运行这个,有很多配置参数,就可以调优spark-submit参数调优 dirver要接受返回值,如果返回的RDD很大,就需要DIRVER需要大的内存;driver很耗内存的,比executor的内存要大,要设大一点。 spark-submit脚本中的资源相关参数 ===> 资源参数原创 2017-01-14 20:41:40 · 412 阅读 · 1 评论 -
Spark机器学习--treeAggregrate
最近项目不是很忙,把一些东西整理出来,当作笔记,主要是为了养成一个好的习惯。这个主要介绍MLlib源码主要出现的treeAggregratepackage com.lm.spark.mlimport org.apache.spark.{SparkConf, SparkContext}object Treeaggreate { def main(args: Array[String...原创 2018-11-02 18:54:21 · 257 阅读 · 0 评论 -
spark提交脚本,记录相关信息
主要是记录GC的相关内容,每个任务的最大重试次数。/usr/lib/spark/bin/spark-submit --class com.centrality.kBC.kBCDriver --executor-cores 1 --executor-memory 10000M --master yarn-cluster --num-executors 28 --conf spark.driver....原创 2018-12-21 10:48:13 · 273 阅读 · 0 评论 -
spark 提交jar包优化
1.原因在测试中,使用livy去运行spark程序,采用代码片段的方式。但是应用在启动的,会把本地的jar文件上传到hdfs,然后再从hdfs分发到其它的运算节点,这个很影响性能。可以配置如下内容2.配置之后,应用等待时间,明显降低。第二个参数,主要是删除应用jar的缓存,防止应用过多,占用hdfs存储。...原创 2018-12-25 16:58:32 · 666 阅读 · 0 评论