spark
走一步
这个作者很懒,什么都没留下…
展开
-
spark进行map,join分worker数少的一些问题
1、fullouterjoin导致的分配worker少:一开始然后加coalesce(1000)还是用的worker很少然后调整join顺序,之前是(小数据)fullouterjoin(大数据),把大小数据顺序调换,worker多了,执行变快最后结果ps:改变join时spark shuffle用的worker数--conf spark.sql.sh...原创 2018-04-24 10:47:42 · 693 阅读 · 0 评论 -
pySpark记录
1、combineByKey使用x = sc.parallelize([('B',1),('B',2),('A',3),('A',4),('A',5)])createCombiner = (lambda el:str(el))mergeVal = (lambda aggr,el:aggr+";"+el)mergeComb = (lambda agg1,agg2 : agg1+";"原创 2017-02-21 16:32:55 · 5046 阅读 · 0 评论 -
spark编程cheat-sheet
1、pysparkspark routain:from pyspark import SparkContextfrom pyspark import HiveContextif __name__ == '__main__': global_dic = get_dic(target_date) sc = SparkContext(appName='get_sub_stra原创 2018-01-02 16:35:46 · 580 阅读 · 0 评论 -
用GC日志看spark程序是不是在driver,Executor内存效率不高
1、设置conf的方式有三种: set by SparkConf: conf.set(“spark.driver.maxResultSize”, “3g”) set by spark-defaults.conf: spark.driver.maxResultSize 3g set when calling spark-submit: –conf spark.driver.maxResultSi原创 2017-09-12 15:09:04 · 3733 阅读 · 0 评论 -
关于spark一些参数的问题
1、2、怎么看给自己分配多少资源来着?以前查着又忘了 3、shuffleRead怎么更快?原创 2017-09-13 13:09:26 · 454 阅读 · 0 评论 -
MapPartition一次oom问题解决
1、问题:每次跑到MapParititon就会停住 看起来是repartition的问题,实际出问题的是之前的mapPartition executor表现: 出问题的代码:val process_data = data.mapPartitions( rs => { val delLabelMapbc = delLabelMap.value原创 2017-09-13 12:52:20 · 3264 阅读 · 0 评论 -
groupByKey一直OOM处理
1、一个任务很简单,就是把2T数据读入,按\t拆分,取里面四个字段,之后groupByKey,但是遇到了一直groupByKey就一直fullGC的问题。这里第一个stage很快就跑完了,应该是在拉数据,map之类的。但是只产出19G数据,groupByKey直接处理应该还是绰绰有余的,但现实是我试了一个周末加一天加两个小时,一直FullGC。这个原因不明,对于整个过程内存到底怎么使用还不完全清楚。原创 2017-09-13 11:35:16 · 954 阅读 · 1 评论 -
第二篇一次查询
问题:sparksql用GROUPPING SETS同时做不同维度组合的聚合,原先刚刚好危险的在一个小时内跑完,又新加了两个维度,维度组合翻倍(大致30个组合),结果要聚合的数据量也翻倍了。。。每次数据量大于2T,导致倾斜严重,运行慢的问题。(注,图的笔记利用了两个很相同的查询,只是为了说明一下情况) 尝试改进1:用mr跑会不会更快?没有,mr跑了2小时,spa原创 2017-07-10 22:26:22 · 438 阅读 · 0 评论 -
失败的sparkSql使用问题记录
问题1、为什么很大的表,最里层的map只用1094个task呢?导致一直gc, 最后失败。问题2,用row获取数据的时候,在sql中聚合的结果到底是integer还是long呢,总报数据类型转换错误,全改成Integer不对,全改成long也不对(这是在第一个问题换成极小的数据后发现的问题。。。df,schema看一下schema可以解决,但是第一个解决不了我就懒得看了。。原创 2017-05-02 22:11:16 · 3399 阅读 · 2 评论 -
spark查询异常记录
spark查询异常记录总结原创 2017-04-15 23:23:29 · 1432 阅读 · 0 评论 -
一次查询
处理数据原创 2017-03-15 12:07:23 · 643 阅读 · 0 评论 -
spark程序性能优化--合并文件
背景:把总量3T的文件和40G的文件合并按key合并,把3T中40G有的记录换成40G的,40G中3T没有的加上。原先是按其中一个数据域经过hash,把数据分成3个part进行处理,大概每个半小时,3个任务1.5小时处理完(之前3T的数据总量大约1.2T)。但随着数据增加,每个部分数据变为了1T,并且数据长度增长,原先半小时的任务跑2个小时都跑不完,进行优化。(1)读入优化:对每条记录用spl...原创 2018-08-17 18:00:15 · 1849 阅读 · 0 评论