数据湖
鸿乃江边鸟
Apache Spark Contributor
专注于技术的dotaer
展开
-
Apache Hudi初探(六)(与spark的结合)
目前hudi的与spark的集合还是基于spark datasource V1来的,这一点可以查看。之前说到只有获取到分布式锁的线程才可以继续一下操作。后续发现也是基于Datasource V2的。原创 2023-05-19 00:22:26 · 445 阅读 · 0 评论 -
数据湖的选型(delta iceberg hudi)以及比对
支持update,支持upsert(merge),具体看类IcebergSparkSqlExtensionsParser.replaceRowLevelCommands。分区是隐藏的,在查询时不需要添加关于分区的筛选条件,建表的时候指定分区的来源(由哪个字段计算而来)Iceberg有catalog的概念,是对表进行管理(create,drop等)的一个组件。需要额外的服务治理小文件,额外的服务清理过期的snapshot。支持多种存储,如 S3,oss,HDFS 等。支持 flink sql upsert。原创 2023-04-18 08:50:20 · 1222 阅读 · 0 评论