datax读取Parquet格式文件总列数

今朝花落悲颜色

已于 2023-06-27 11:27:06 修改

阅读量982

点赞数 1

文章标签： java 算法开发语言

于 2023-06-13 15:34:20 首次发布

本文链接：https://blog.csdn.net/letterss/article/details/131189471

版权

pom引用

<dependency>
<groupId>org.apache.parquet</groupId>
<artifactId>parquet-avro</artifactId>
<version>1.12.0</version>
</dependency>
<dependency>
<groupId>org.apache.parquet</groupId>
<artifactId>parquet-hadoop</artifactId>
<version>1.12.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.7.3</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-core</artifactId>
<version>2.7.3</version>
</dependency>

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.parquet.hadoop.ParquetFileReader;
import org.apache.parquet.hadoop.metadata.ColumnChunkMetaData;
import org.apache.parquet.hadoop.metadata.ParquetMetadata;

public class ParquetColumnCountReader {
    public static void main(String[] args) {
        String parquetFilePath = "path/to/parquet/file.parquet";

        Configuration configuration = new Configuration();
        Path path = new Path(parquetFilePath);
        try {
            ParquetMetadata metadata = ParquetFileReader.readFooter(configuration, path);
            List<ColumnChunkMetaData> columns = metadata.getBlocks().get(0).getColumns();
            int columnCount = columns.size();
            System.out.println("Total column count: " + columnCount);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}