1.美图 Spark运行的时候,会产生一堆临时文件,临时数据,比如持久化的RDD数据在磁盘上,没有持久化的在内存中,比如shuffle的临时数据等,如果每次运行完,或者没有运行完杀掉了,不清理,会产生大量的无用数据,最终造成大数据集群崩溃而死。 2. 初始化 ContextCleaner的初始化是在SparkContext中初始化的,这个功能默认是必须开 启的。 _cleaner = if (_conf.getBoolean("spark.cleaner.referenceTracking",