- 博客(4)
- 收藏
- 关注
原创 PARQUET
一、Parquet文件格式的优势: 1. 列式存储,只读取需要的数据,降低IO数据量,速度快。 2. 压缩比高,占用空间少,由于PARQUET按列存储,可以使用更高效的压缩编码(例如 Run Length Encoding 和 Delta Encoding)进一步节约存储空间。 3.自带Schema,parquet文件包含了元数据信息(包含schema合structure),可以通过数据 文件,解析出parquet的...
2021-11-11 15:38:10
604
1
原创 spark infer parquet schema
背景:最近需要根据parquet文件来解析schema信息,便参考学习了sparksql中infer parquet schema的相关代码一、infer schema代码入口:package位置:org.apache.spark.sql.execution.datasources.parquet入口类:ParquetFileFormat是sparksql中paquert格式的data source,该类继承自FileFormat,类似的类还有OrcFileFormat, A...
2021-11-02 14:08:23
1334
1
原创 spark SQL连接接hive原理及源码学习
由于项目需要挂载hive,因此学习阅读了部分spark SQL连接hive的源码,特此总结spark SQL连接hive方式1. spark SQL连接hive相关参数和类 spark SQL连接hive的相关demo如下(代码位于spark源码SparkHiveExample类):val spark = SparkSession .builder().master("local[*]") .appName("Spark Hive Example") ..
2021-08-18 10:48:42
426
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人