关闭

关于spark一些参数的问题

1、2、怎么看给自己分配多少资源来着?以前查着又忘了 3、shuffleRead怎么更快?...
阅读(156) 评论(0)

MapPartition一次oom问题解决

1、问题:每次跑到MapParititon就会停住 看起来是repartition的问题,实际出问题的是之前的mapPartition executor表现: 出问题的代码:val process_data = data.mapPartitions( rs => { val delLabelMapbc = delLabelMap.value...
阅读(174) 评论(0)

groupByKey一直OOM处理

1、一个任务很简单,就是把2T数据读入,按\t拆分,取里面四个字段,之后groupByKey,但是遇到了一直groupByKey就一直fullGC的问题。这里第一个stage很快就跑完了,应该是在拉数据,map之类的。但是只产出19G数据,groupByKey直接处理应该还是绰绰有余的,但现实是我试了一个周末加一天加两个小时,一直FullGC。这个原因不明,对于整个过程内存到底怎么使用还不完全清楚。...
阅读(162) 评论(0)

用GC日志看spark程序是不是在driver,Executor内存效率不高

1、设置conf的方式有三种: set by SparkConf: conf.set(“spark.driver.maxResultSize”, “3g”) set by spark-defaults.conf: spark.driver.maxResultSize 3g set when calling spark-submit: –conf spark.driver.maxResultSi...
阅读(139) 评论(0)

执行scala

scala运行...
阅读(118) 评论(0)

Scala中函数组合器用法

http://blog.csdn.net/springlustre/article/details/52882205 讲的挺全...
阅读(92) 评论(0)

第二篇一次查询

问题:sparksql用GROUPPING SETS同时做不同维度组合的聚合,原先刚刚好危险的在一个小时内跑完,又新加了两个维度,维度组合翻倍(大致30个组合),结果要聚合的数据量也翻倍了。。。每次数据量大于2T,导致倾斜严重,运行慢的问题。(注,图的笔记利用了两个很相同的查询,只是为了说明一下情况) 尝试改进1:用mr跑会不会更快?没有,mr跑了2小时,spa...
阅读(86) 评论(0)

hive查过的函数

1、正则匹配函数  regexp   1.正则匹配 数值型  hive  > select  1 regexp '^[0-9]*$'   from dual;   > true   2.正则匹配数值开头结尾  hive > select  '1aa1'   regexp '^[0-9].*$'   from dual;   > tru...
阅读(77) 评论(0)

一次查询2

一次spark查询...
阅读(76) 评论(0)

hive distinct groupby等实现原理

http://www.cnblogs.com/cxzdy/p/5116222.html...
阅读(345) 评论(0)

sql设计模式

可以参考一系列文章: http://www.cnblogs.com/SavionZhang/p/4015290.html 其他 group set系列...
阅读(143) 评论(0)

失败的sparkSql使用问题记录

问题1、为什么很大的表,最里层的map只用1094个task呢?导致一直gc,   最后失败。 问题2,用row获取数据的时候,在sql中聚合的结果到底是integer还是long呢,总报数据类型转换错误,全改成Integer不对,全改成long也不对(这是在第一个问题换成极小的数据后发现的问题。。。df,schema看一下schema可以解决,但是第一个解决不了我就懒得看了。。...
阅读(476) 评论(0)

易错的api和坑

java 1、正则,replaceAll http://www.cnblogs.com/iyangyuan/p/4809582.html...
阅读(100) 评论(0)

vim 命令 & intellij快捷键

转载自:http://www.codeceo.com/article/useful-vim-command.html 如果我的关于这个话题的最新帖子没有提醒到你的话,那我明确地说,我是一个 Vim 的粉丝。所以在你们中的某些人向我扔石头之前,我先向你们展示一系列“鲜为人知的 Vim 命令”。我的意思是,一些你可能以前没有碰到过的命令,但可能对你来说很有用。作为第二免责声明,我不知道哪些命...
阅读(483) 评论(2)

spark查询异常记录

spark查询异常记录总结...
阅读(540) 评论(0)
49条 共4页1 2 3 4 下一页 尾页
    个人资料
    • 访问:27138次
    • 积分:599
    • 等级:
    • 排名:千里之外
    • 原创:31篇
    • 转载:18篇
    • 译文:0篇
    • 评论:15条
    最新评论