Apache Paimon 使用之文件系统配置

Paimon提供自定义FileSystem插件以解决Spark和Hive与Flink可能存在的冲突问题。它支持HDFS、Hadoop兼容文件系统(如Alluxio)等,且针对Flink/JavaAPI和Spark/Hive环境分别给出了配置说明。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1)概述

Paimon 和 Flink 一样使用了插件式的 file systems,如果使用Flink引擎,用户可以根据 plugin 机制配置 plugin 结构。

然而,对于 Spark 引擎 和 Hive 引擎,它们提供的 Jars 可能与 Flink 提供的产生冲突,不能直接使用,因此 Paimon 自己也提供了FileSystem插件,供用户从Spark或Hive端查询表。

支持的文件系统

FileSystemURI SchemePluggableDescription
Local File Systemfile://N内置支持
HDFShdfs://N内置支持, 确保集群处于 hadoop environment
Aliyun OSSoss://Y
S3s3://Y
2)HDFS
1.HDFS 配置

对于 Flink/Java API:需要配置 Hadoop 环境。

设置环境变量HADOOP_HOME或HADOOP_CONF_DIR。
在paimon catalog中配置'hadoop-conf-dir'
通过paimon catalog中的前缀'hadoop.'配置Hadoop选项。

对于 Spark/Hive:HDFS配置可直接通过集群获得。

2.Hadoop-compatible file systems (HCFS)

当Hadoop libraries在类路径上时,所有Hadoop文件系统都会自动可用。

通过这种方式,Paimon无缝支持所有实现org.apache.hadoop.fs.FileSystem接口的Hadoop文件系统,以及所有与Hadoop兼容的文件系统(HCFS)。

  • HDFS
  • Alluxio(见下面的配置细节)
  • XtreemFS

Hadoop配置必须在core-site.xml文件中有一个用于所需文件系统实现的配置。

对于Alluxio支持,请在core-site.xml文件中添加以下配置:

<property>
  <name>fs.alluxio.impl</name>
  <value>alluxio.hadoop.FileSystem</value>
</property>
为什么要学习这门课程?·新一代流式数据湖技术组件深入讲解,帮助你快速构造数据湖知识体系。·为构建湖仓一体架构提供底层技术支撑。本课程将从原理、架构、底层存储细节、性能优化、管理等层面对Paimon流式数据湖组件进行详细讲解,原理+实战,帮助你快速上手使用数据湖技术。讲师介绍华为HCIP认证大数据高级工程师北京猎豹移动大数据技术专家中科院大数据研究院大数据技术专家51CTO企业IT学院优秀讲师电子工业出版社2022年度优秀作者出版书籍:《Flink入门与实战》、《大数据技术及架构图解实战派》。本课程提供配套课件、软件、试题、以及源码。课程内容介绍:1、什么是Apache Paimon2、Paimon的整体架构3、Paimon的核心特点4、Paimon支持的生态5、基于Flink SQL操作Paimon6、基于Flink DataStream API 操作Paimon7、Paimon中的内部表和外部表8、Paimon中的分区表和临时表9、Paimon中的Primary Key表(主键表)10、Paimon中的Append Only表(仅追加表)11、Changelog Producers原理及案例实战12、Merge Engines原理及案例实战13、Paimon中的Catalog详解14、Paimon中的Table详解15、Paimon之Hive Catalog的使用16、动态修改Paimon表属性17、查询Paimon系统表18、批量读取Paimon表19、流式读取Paimon表20、流式读取高级特性Consumer ID21、Paimon CDC数据摄取功能22、CDC之MySQL数据同步到Paimon23、CDC之Kafka数据同步到Paimon24、CDC高级特性之Schema模式演变25、CDC高级特性之计算列26、CDC高级特性之特殊的数据类型映射27、CDC高级特性之中文乱码28、Hive引擎集成Paimon29、在Hive中配置Paimon依赖30、在Hive中读写Paimon表31、在Hive中创建Paimon表32、Hive和Paimon数据类型映射关系33、Paimon底层文件基本概念34、Paimon底层文件布局35、Paimon底层文件操作详解36、Flink流式写入Paimon表过程分析37、读写性能优化详细分析38、Paimon中快照、分区、小文件的管理39、管理标签(自动管理+手工管理)40、管理Bucket(创建+删除+回滚)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

猫猫爱吃小鱼粮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值