自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Hudi async/inline compaction

hudi compaction分析

2022-08-12 14:24:52 865 3

原创 PARQUET

一、Parquet文件格式的优势: 1. 列式存储,只读取需要的数据,降低IO数据量,速度快。 2. 压缩比高,占用空间少,由于PARQUET按列存储,可以使用更高效的压缩编码(例如 Run Length Encoding 和 Delta Encoding)进一步节约存储空间。 3.自带Schema,parquet文件包含了元数据信息(包含schema合structure),可以通过数据 文件,解析出parquet的...

2021-11-11 15:38:10 604 1

原创 spark infer parquet schema

背景:最近需要根据parquet文件来解析schema信息,便参考学习了sparksql中infer parquet schema的相关代码一、infer schema代码入口:package位置:org.apache.spark.sql.execution.datasources.parquet入口类:ParquetFileFormat是sparksql中paquert格式的data source,该类继承自FileFormat,类似的类还有OrcFileFormat, A...

2021-11-02 14:08:23 1334 1

原创 spark SQL连接接hive原理及源码学习

由于项目需要挂载hive,因此学习阅读了部分spark SQL连接hive的源码,特此总结spark SQL连接hive方式1. spark SQL连接hive相关参数和类 spark SQL连接hive的相关demo如下(代码位于spark源码SparkHiveExample类):val spark = SparkSession .builder().master("local[*]") .appName("Spark Hive Example") ..

2021-08-18 10:48:42 426 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除