SRC
parquet是apache的开源项目,一个压缩格式。
parquet的数据自带表结构,所以需要创建schema对象。schema对象可以是spark中df的StructType,也可以是parquet官方提供的api
usage
可以通过sql的形式读取parquet文件创建df
al df = ss.sql(“SELECT * FROM parquet.examples/src/main/resources/users.parquet
”)
parquet是apache的开源项目,一个压缩格式。
parquet的数据自带表结构,所以需要创建schema对象。schema对象可以是spark中df的StructType,也可以是parquet官方提供的api
可以通过sql的形式读取parquet文件创建df
al df = ss.sql(“SELECT * FROM parquet.examples/src/main/resources/users.parquet
”)