1.MaxResultSize问题
首先,出现这个错误的时候Spark会产生如下错误信息:
org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 77 tasks (1028.5 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)
而后,继而会出现异常信息:java.lang.InterruptedException
这就是由于设置MaxResultSize这个参数过小而导致的,由上面信息可以看出Spark默认的MaxResultSize大小为1GB,所以解决这类错误的方法就是增大MaxResultSize。
解决方法:在设置SparkConf,即设置Spark参数时加入如下内容:
.set("spark.driver.maxResultSize", "4g")
2.Java heap space问题
内存溢出问题,异常信息为:Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
之后会罗列出现此异常的代码位置信息,从根源开始,从上往下逐步罗列由此方法或者变量而导致后续出现的从小到大异常,简而言之,异常出现的根源是在此异常信息下的头一行语句中。
解决此类问题的方法有三:
(1)调整所用eclipse或者IDEA等软件设置的基础内存大小(ec