什么时候会用到 Parquet ?
- 在 ETL 中, Spark 经常扮演 T 的职务, 也就是进行数据清洗和数据转换.
- 为了能够保存比较复杂的数据, 并且保证性能和压缩率, 通常使用 Parquet 是一个比较不错的选择.
- 所以外部系统收集过来的数据, 有可能会使用 Parquet, 而 Spark 进行读取和转换的时候, 就需要支持对 Parquet 格式的文件的支持.
使用代码读写 Parquet 文件
默认不指定 format 的时候, 默认就是读写 Parquet 格式的文件
import org.apache.spark.sql.