parquet嵌套数据模型,简要理解中[待验证补充]

本文探讨了Parquet文件格式中的嵌套数据模型,重点在于理解repeated和defined levels,以及如何处理repeated optional对象的null表示。文章提到了在Spark中Parquet的特殊处理,并通过实例和对比Dremel的(R,D,V)模型来深化理解。" 138350285,19925561,SpringBoot整合RabbitMQ实战教程,"['java-rabbitmq', 'spring-boot', 'rabbitmq']
摘要由CSDN通过智能技术生成

参考较清楚一点点的文章系列(我就不再赘述):

https://blog.csdn.net/zwgdft/article/details/104582229

https://blog.csdn.net/zwgdft/article/details/104670086

https://blog.csdn.net/zwgdft/article/details/105417979

难点在于,一:repeated level理解,二:defined level理解,三 对repeated optional对象的null表示,四,parquet在spark中有所变种

 

第二个 defined level理解,我就是展开字段,eg:trans.uri  或spark里 trans.list.element.uri,那层上开始有值,就是第几层。

 

第三四个,null表示,原parquet,就是repeate optional叶子节点如果字段值为null,都要(R,D,V=null)表示,spark中,简化为仅需optional成为叶子节点,的对为不为null进行表示。

 

至于第一个,

里面的样例,还是过于单调,对理解Dremel的(R,D,V)模型的repeated还是有些不清不楚

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值