java读写parquet_是否可以在不依赖Hadoop和HDFS的情况下使用Java读写Parquet？

最新推荐文章于 2022-01-27 11:24:45 发布

18918258191

最新推荐文章于 2022-01-27 11:24:45 发布

阅读量454

点赞数

文章标签： java读写parquet

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30977095/article/details/114714463

版权

我一直在寻找这个问题的解决方案.

在我看来,如果不依赖HDFS和Hadoop,就无法在Java程序中嵌入读写Parquet格式.这个对吗？

我想在Hadoop集群之外的客户端计算机上进行读写.

我开始对Apache Drill感到兴奋,但是看来它必须作为单独的进程运行.我需要的是一种使用Parquet格式读写文件的过程中功能.

解决方法:

您可以使用java Parquet Client API在hadoop集群外部编写Parquet格式.

这是Java中的示例代码,该示例代码将镶木地板格式写入本地磁盘.

{

final String schemaLocation = "/tmp/avro_format.json";

final Schema avroSchema = new Schema.Parser().parse(new File(schemaLocation));

final MessageType parquetSchema = new AvroSchemaConverter().convert(avroSchema);

final WriteSupport writeSupport = new AvroWriteSupport(parquetSchema, avroSchema);

final String parquetFile = "/tmp/parquet/data.parquet";

final Path path = new Path(parquetFile);

ParquetWriter parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE);

final GenericRecord record = new GenericData.Record(avroSchema);

record.put("id", 1);

record.put("age", 10);

record.put("name", "ABC");

record.put("place", "BCD");

parquetWriter.write(record);

parquetWriter.close();

}

avro_format.json,

{

"type":"record",

"name":"Pojo",

"namespace":"com.xx.test",

"fields":[

{

"name":"id",

"type":[

"int",

"null"

]

},

{

"name":"age",

"type":[

"int",

"null"

]

},

{

"name":"name",

"type":[

"string",

"null"

]

},

{

"name":"place",

"type":[

"string",

"null"

]

}

]

}

希望这可以帮助.

标签：hadoop,apache-drill,java,parquet,data-formats

来源： https://codeday.me/bug/20191111/2022069.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。