有哪些方式加速大数据查询速度

最新推荐文章于 2024-03-04 13:55:10 发布

无为_TCS

最新推荐文章于 2024-03-04 13:55:10 发布

阅读量770

点赞数

文章标签： hbase

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tcsbupt/article/details/100146282

版权

一般的大数据都是躺在磁盘上，一般是通过key的partition找到对应region，然后再找每个小分片文件，总之会比较慢。

1. 一般会在内存中有一些数据，然后还有一些是缓存，然后再是查小文件，而且小文件是有序的

2. 对于列式存储，分不同的rowkey进行分裂，不同的列簇也是存在不同文件的，这样能做到

参考hbase的查询方式：https://www.jianshu.com/p/52a67e718fe7

hbase写很快，读相对慢一些，尤其是没有命中内存和缓存的

如果是还在缓存中的数据，读是很快的，

如果是memstore中(刚写的，还没到一定量要写文件，写了文件之后就清内存了)，也会很快

否则，相对就慢了，但是第一次从文件读了之后，放在cache中；

3. 多步查询之间，中间数据不落磁盘，都放在内存中这是很多mpp查询做的。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
有哪些方式加速大数据查询速度

一般的大数据都是躺在磁盘上，一般是通过key的partition找到对应region，然后再找每个小分片文件，总之会比较慢。1. 一般会在内存中有一些数据，然后还有一些是缓存，然后再是查小文件，而且小文件是有序的2. 对于列式存储，分不同的rowkey进行分裂，不同的列簇也是存在不同文件的，这样能做到参考hbase的查询方式：https://www.jianshu.com/p/52a6...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。