自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

一步一步

机器学习 机器视觉

  • 博客(4)
  • 资源 (2)
  • 收藏
  • 关注

原创 关于spark一些参数的问题

1、2、怎么看给自己分配多少资源来着?以前查着又忘了 3、shuffleRead怎么更快?

2017-09-13 13:09:26 454

原创 MapPartition一次oom问题解决

1、问题:每次跑到MapParititon就会停住 看起来是repartition的问题,实际出问题的是之前的mapPartition executor表现: 出问题的代码:val process_data = data.mapPartitions( rs => { val delLabelMapbc = delLabelMap.value

2017-09-13 12:52:20 3263

原创 groupByKey一直OOM处理

1、一个任务很简单,就是把2T数据读入,按\t拆分,取里面四个字段,之后groupByKey,但是遇到了一直groupByKey就一直fullGC的问题。这里第一个stage很快就跑完了,应该是在拉数据,map之类的。但是只产出19G数据,groupByKey直接处理应该还是绰绰有余的,但现实是我试了一个周末加一天加两个小时,一直FullGC。这个原因不明,对于整个过程内存到底怎么使用还不完全清楚。

2017-09-13 11:35:16 954 1

原创 用GC日志看spark程序是不是在driver,Executor内存效率不高

1、设置conf的方式有三种: set by SparkConf: conf.set(“spark.driver.maxResultSize”, “3g”) set by spark-defaults.conf: spark.driver.maxResultSize 3g set when calling spark-submit: –conf spark.driver.maxResultSi

2017-09-12 15:09:04 3731

数据结构1800题

用于研究生计算机统考数据结构复习,可以在最初复习时选择的做,不需要都做

2013-06-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除