在spark1.6.0中运行代码,出现如下错误:
org.apache.spark.SparkException: Failed to get broadcast_270_piece0 of broadcast_270
解决方法
1.可能是因为spark.cleaner.ttl导致的,spark.cleaner.ttl设置一个清除时间,使spark清除超过这个时间的所有RDD数据,以便腾出空间给后来的RDD使用。可按如下设置时长(s):
val sc = newSparkConf ().setMaster (“local [2]” ).setAppName (“test” ).set (“spark.cleaner.ttl” ,“2000” )
2.可能是因为将sparkcontext定义在了object体内,而不是object的方法内,这就导致方法在执行时,sparkcontext初始化多次。在spark中,上一个sparkcontext没有关闭,则会出错。
可以额外写一个spark初始化类,然后在需要的object方法内调用即可,
import org.apache.spark.{SparkConf, SparkContext}
class Spark extends Serializable {
def getContext: SparkContext = {
@transient lazy val conf: SparkConf =
new SparkConf()
.setMaster("local")
.setAppName("test")
@transient lazy val sc: SparkContext = new SparkContext(conf)
sc.setLogLevel("OFF")
sc
}
}
调用:
object Test extends Spark{
def main(args: Array[String]): Unit = {
val sc = getContext
val irisRDD: RDD[String] = sc.textFile("...")
...
}
参考https://www.jianshu.com/p/33fe0987f715