Spark SQL下Parquet中PushDown的实现
1、Spark SQL下的PushDown的价值
2、Spark SQL下的Parquet下的PushDown实现
SQL角度讲有基本的过滤、语法树。语法树过滤也有2个层次,一个是基本的过滤,一个是真正的解析。优化是对各种filter进行合并,而且会调整顺序。最后从Catalyst角度,它会变成RDD进行操作,最后会装入到DataSourceStrategy。DataSourceStrategy会通过Parquet高层的API来操作Parquet。Parquet内部再收到上层的过滤条件的时候底层如何映射。