在引入DataFrame之前 Python查询速度普遍比使用RDD的Scala慢近2倍,主要是因为Python和JVM之间的同学开销。 利用DataFrame,Pyspark的处理速度和Scala的速度相当,不分伯仲。