java读取hudi parquet文件

java读取hudi parquet文件

hudi版本说明:0.10.1

  • pom引入
        <dependency>
            <groupId>org.apache.parquet</groupId>
            <artifactId>parquet-avro</artifactId>
            <version>1.12.0</version>
        </dependency>


        <dependency>
            <groupId>org.apache.avro</groupId>
            <artifactId>avro</artifactId>
            <version>1.10.2</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>3.3.1</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-mapreduce-client-core</artifactId>
            <version>3.3.1</version>
        </dependency>
  • code
import org.apache.avro.Schema;
import org.apache.parquet.avro.AvroParquetReader;
import org.apache.parquet.hadoop.ParquetReader;
import org.apache.parquet.hadoop.util.HadoopInputFile;

import java.io.IOException;

public class HudiParquetParser {

    public static void main(String[] args) throws IOException {
        // Hudi 生成的 Parquet 文件路径
        String parquetFilePath = "/Users/lxq/Desktop/depark/test/parquet/user/45b734d2-bcff-406f-819f-2ba097356f10_0-2-0_20230703193743155.parquet";

        // 读取 Parquet 文件
        try (ParquetReader<org.apache.avro.generic.GenericRecord> reader = AvroParquetReader
                .<org.apache.avro.generic.GenericRecord>builder(
                        HadoopInputFile.fromPath(new org.apache.hadoop.fs.Path(parquetFilePath), new org.apache.hadoop.conf.Configuration()))
                .withConf(new org.apache.hadoop.conf.Configuration())
                .build()) {
            org.apache.avro.generic.GenericRecord record;
            while ((record = reader.read()) != null) {
                // 处理每个记录
                Schema schema = record.getSchema();
                for (Schema.Field field : schema.getFields()) {
                    String fieldName = field.name();
                    Object value = record.get(fieldName);
                    System.out.println(fieldName + ": " + value);
                }
                System.out.println("======================");
            }
        }
    }
}

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值