- 博客(2)
- 资源 (16)
- 收藏
- 关注
转载 Orcfile文件格式解析(2)
上篇文章从整体介绍了Orcfile的存储格式,接下来重点介绍下Orc里用到的几种编码格式: 字典编码:用于String类型的字段 Run-Length编码:用于int,long,short等类型的编码 Bit编码:可以用于各种数据类型 1,字典编码: 对于String类型的每个字段分别保存一个字典,记录每个值在字典中的位置,保存
2014-09-04 17:18:39 1232
转载 Orcfile文件格式解析(1)
Orcfile(Optimized Row Columnar)是hive 0.11版里引入的新的存储格式,是对之前的RCFile存储格式的优化。写这个的哥们来自于HortonWorks,代码写的很不错,比之前的rcfile强多了(据说rcfile是个中科院的童鞋跑去facebook写的,看来中国的计算机教育水平还是有限啊。。。囧,跑题了) 先介绍下Orc的文件格式,截一张官方的图:
2014-09-04 16:53:34 1250
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人