当要运行的数据量比较大,运行速度慢时,可以考虑用 partitioner分区功能 (Encoders.bean(classOf[(String, (String, String, String,String))])).rdd