Spark
文章平均质量分 50
leishenop
开源改变世界
展开
-
Spark提交作业运行过程
背景 最近在学习Spark源码方面的知识,在这里大概了解了Spark整体的运行过程,从初始化到最终的底层运行。今天在这里进行详细的记录一下。一边以后的回顾和学习。Spark程序运行整体流程当SparkContext初始化完之后,我们通常会使用它来读取外部的数据,使之形成RDD。然后我们会经过一些列的RDD操作之后,到最后一个Action操作。从而触发了Job的提交。在Spark中RDD操作分为两种:原创 2016-09-11 16:33:25 · 1106 阅读 · 0 评论 -
Spark Graphx - 构建网络代码讲解
这几天在使用微博的数据来做一些分析,我用Spark Graphx来进行微博转发网络的建立。新手哦刚开始学习Spark Graphx时,可能不会使用Spark Graphx来进行关系网络的建立。下面根据官网的例子来进行讲解.下面是官网的代码:val users: RDD[(VertexId, (String, String))] = sc.parallelize(Array((3L, ("rxin原创 2017-03-10 15:51:45 · 1132 阅读 · 0 评论 -
腾讯云一面(2017.3.15)
网上关于腾讯云的面试好少,所以在这里记录一下,和大家一起分享面试经验。在3.15号早上,当时还在图书馆看书的时候,突然接到了腾讯云(成都)打来的电话,因为之前在年级群里面申请过,所以在接到电话的时候,自己还是特别兴奋,因为在图书馆不方便说话,果断的约在了下午两点钟。下午两点多一点,电话果然打过来了。于是就开始了一面之旅。 自我介绍 讲述HDFS上传文件和读文件的流程 HDFS在上传原创 2017-03-20 14:16:06 · 2210 阅读 · 0 评论 -
Spark on Yarn Client和Cluster模式详解
Spark在YARN中有yarn-cluster和yarn-client两种运行模式:I. Yarn ClusterSpark Driver首先作为一个ApplicationMaster在YARN集群中启动,客户端提交给ResourceManager的每一个job都会在集群的worker节点上分配一个唯一的ApplicationMaster,由该ApplicationMaster管理全转载 2017-02-15 17:12:14 · 3816 阅读 · 0 评论 -
Spark 性能优化问题与解决思路
Spark性能优化的10大问题及其解决方案问题1:reduce task数目不合适解决方式:需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism。通常,reduce数目设置为core数目的2到3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太少,任务运行缓慢。问题2:shuffle磁盘IO时间长解决方式:转载 2016-12-07 17:27:29 · 411 阅读 · 0 评论 -
Spark性能调优相关参数
现在在做kaggle上面的比赛,数据集过大,而且我又是本地模式运行spark,遇到了很多问题,在网上找到了一个比较好的博客内容,介绍了spark的调优,在这里分享给大家。随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。转载 2016-11-21 16:18:54 · 509 阅读 · 0 评论 -
Spark创建DataFrame和读取CSV数据文件
之前写的程序中,有些API在Spark SQLContext没有,我计算的结果先保存在rdd中,最后在使用RDD转换成dataframe进行保存,话不多说下面是代码.//一个StruceFields你可以把它当成一个特征列。分别用列的名称和数据类型初始化 val structFields = List(StructField("age",DoubleType),StructField("hei原创 2016-10-17 23:58:34 · 31818 阅读 · 2 评论 -
Spark DataFrame简述和遇到的问题
之前在写Spark Driver程序的时候,因为使用的DataFrame来进行的相关操作,所以今天就总结一下用到的一些东西,同时也分享一下自己遇到的一些问题,让新人能够快速的解决相关的问题.虽然最新的Spark Sql把DataFrame变成了DataSet,但是DataFrame和DataSet这两个操作其实都类似。DataFrame DataFrame其实就是带了元数据的RDD,大家在学习原创 2016-08-02 22:08:11 · 3036 阅读 · 0 评论 -
解决 Spark 本地模式 out of memory 和磁盘不足问题
在做Kaggle比赛的时候,中间处理之后的训练数据有5000多万条数据,结果Spark 本地模式运行的时候,一直报出out of memory 问题。我在程序中使用了DataFrame.rdd.collect()方法。RDD的Collect()方法把RDD的数据全部放入到数组中进行返回,5000多万条数据全部放入到数组当中进行返回。当然会内存溢出。通过打印GC日志发现,Eden区域和老年代的空间使用原创 2016-12-08 23:27:52 · 6781 阅读 · 1 评论