sqlserver exec查询存储过程取某一个字段_ORC文件存储格式的深入探究

最新推荐文章于 2024-04-08 04:10:31 发布

weixin_39607836

最新推荐文章于 2024-04-08 04:10:31 发布

阅读量276

点赞数

文章标签： sqlserver exec查询存储过程取某一个字段实体类能存储多个值嘛

本文链接：https://blog.csdn.net/weixin_39607836/article/details/111282445

版权

因为生病，另外还在做牙齿的根管治疗，痛不欲生，短更一篇。

年前都在梳理《大数据成神之路》的目录还有内容，另外Flink的公开课程也在规划大纲和目录。不知道我在说什么，看一下这里《2020年要做的几件大事》。

昨天有个同学问了我一个问题。Hive中的文件存储格式该选什么？

然后在找到这个关于ORC的文章。如果你英文很好，参考这里：

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC

一、ORC文件格式

ORC的全称是(Optimized Record Columnar)，使用ORC文件格式可以提高hive读、写和处理数据的能力。ORC在RCFile的基础上进行了一定的改进，所以与RCFile相比，具有以下一些优势： - 1、ORC中的特定的序列化与反序列化操作可以使ORC file writer根据数据类型进行写出。 - 2、提供了多种RCFile中没有的indexes，这些indexes可以使ORC的reader很快的读到需要的数据，并且跳过无用数据，这使得ORC文件中的数据可以很快的得到访问。 - 3、由于ORC file writer可以根据数据类型进行写出，所以ORC可以支持复杂的数据结构(比如Map等)。 - 4、除了上面三个理论上就具有的优势之外，ORC的具体实现上还有一些其他的优势，比如ORC的stripe默认大小更大，为ORC writer提供了一个memory manager来管理内存使用情况。

图1-ORC文件结构图

二、ORC数据存储方法

在ORC格式的hive表中，记录首先会被横向的切分为多个stripes，然后在每一个stripe内数据以列为单位进行存储，所有列的内容都保存在同一个文件中。每个stripe的默认大小为256MB，相对于RCFile每个4MB的stripe而言，更大的stripe使ORC的数据读取更加高效。
对于复杂数据类型，比如Map，ORC文件会将一个复杂数据类型字段解析成多个子字段。下表中列举了ORC文件中对于复杂数据类型的解析

Data type

最低0.47元/天解锁文章

weixin_39607836

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sqlserver exec查询存储过程取某一个字段_ORC文件存储格式的深入探究

因为生病，另外还在做牙齿的根管治疗，痛不欲生，短更一篇。年前都在梳理《大数据成神之路》的目录还有内容，另外Flink的公开课程也在规划大纲和目录。不知道我在说什么，看一下这里《2020年要做的几件大事》。昨天有个同学问了我一个问题。Hive中的文件存储格式该选什么？然后在找到这个关于ORC的文章。如果你英文很好，参考这里：https://cwiki.apache.org/confluen...
复制链接

扫一扫

sqlserver exec查询存储过程取某一个字段_ORC文件存储格式的深入探究

一、ORC文件格式

二、ORC数据存储方法

“相关推荐”对你有帮助么？