spark、hive、impala、hbase、gbase在结构化数据方面查询原理对比(含parquet/orc)

最新推荐文章于 2024-06-11 20:04:36 发布

fengyun14

最新推荐文章于 2024-06-11 20:04:36 发布

阅读量1.3w

点赞数 2

分类专栏：云计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fengyun14/article/details/50269685

版权

这几天恰巧来了4台服务器，还没有正式使用，所以赶紧加班安装调试了hadoop + spark 。

以前也玩过spark，但这次玩，是因为spark从1.4版本后使spark sql独立出来，想必一定不赖；另外，还支持DataFrame，底层存储支持parquet，甚至orc file。

一、parquet 和 orc 对比

我专门查了查parquet 和 orc，网上很多，我只说关键的。

1、parquet 和 orc 都是用于存储数据的底层格式，都是列式的。不难想象，对于单查某一个或2个列，因为不涉及其他列，所以速度会很快。

2、都能实现列压缩。如连续3个一样的数据放在一起，他们可以只写一遍，标示上为3次即可。压缩不压缩，我倒不怕空间浪费，关键是因为减小了体积，所以查询速度势必加快，所以这是好的。

3、在一定体积内（无论多少行），都是放在一起的，所以他们列式的前提，是先多行在一起，然后在多行内的列独立。

4、不同：orc 格式，在文件头有一个粗粒度索引，如此列的最大值和最小值。如果您查询的值不在此列包，则跳过不查，所以orc格式在查询结果不大的情况下，会速度快很多。而parquet则没有此特征。

5、parquet 不支持Update，不支持ACID。

二、spark 和 hive </

最低0.47元/天解锁文章

关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
spark、hive、impala、hbase、gbase在结构化数据方面查询原理对比(含parquet/orc)

spark、hive、impala、hbase、gbase在结构化数据方面查询原理对比(含parquet/orc)
复制链接

扫一扫

专栏目录

fengyun14 CSDN认证博客专家 CSDN认证企业博客

码龄20年

62: 原创

105万+: 周排名

58万+: 总排名

33万+: 访问

: 等级

3684: 积分

40: 粉丝

19: 获赞

32: 评论

64: 收藏

私信

关注

热门文章

分类专栏

云计算 5篇
AIX 7篇
AJAX 1篇
ASP.NET 12篇
C# 10篇
FLASH 4篇
FLEX 8篇
LINUX 3篇
ORACLE 16篇
SQL SERVER 14篇
Kettle 5篇
jQueryUI 4篇
JAVA 2篇
Android 1篇
生活 1篇

最新评论

talend的常用控件使用教程
豆葛: 大佬不混C站了吗,活过来麻烦回答下问题并且踢我一下,我关注了
talend的常用控件使用教程
m0_61488091: 请问连接不上数据库怎么办呀，总说少了jdbc驱动
talend的常用控件使用教程
潇洒$¥半仙: 大佬问个问题，talend的jdbc怎么更换啊？我之前的jdbc版本太老了，我下载了windows 高版本的jdbc。我查了和我的jdk是兼容的。但就是不知道怎么在talend中使用下载好的高版本的jdbc连接SQL Server数据库，跪求大佬解惑。
.NET FrameWork 各版本程序的兼容测试
想要进步的小林.: 请问一下，博主您后来部署到xp系统得到实现了吗？
ASP.NET变量的作用域
FreemanLou: 十分感谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。