hbase分页的功能实现

16 篇文章 0 订阅

hbase分页功能的几种实现方案。

分页功能是线上系统的常用功能,对hbase,有以下几个方案可以选择(抛砖引玉)。

假设要查第N页,1页大小为M

1 client分页,scan查到N*M条,过滤掉N*(M--1)条,返回M条。对于M,N较小时比较适合。

2 自定义Filter,该filter可以传递offset(server端需要过滤的记录条数),在server端分页,注意,跨不同的region时需要重新计算该offset。

例子:第1个HRegion的请求传递该值为N*M-1,表示需要在server端过滤掉N*M--1条记录。当第1个HRegion返回时,需要知道该次请求在server端实际过滤了多少条记录(假设为Size条),

第2个HRegion的请求传递该值为(N*(M-1))-Size。

3 缓存上次分页查询的最后一条,下次分页查询从这条(不包含)开始查。

4 查询条件固定的话,定时任务汇总表。

5 结合其他框架想办法。

少量数据的推荐使用的,使用了方案1。

————————————————————————————————————————————————

1、PG数据库(包括其他一些关系型数据库)据说在单表记录数超过100w时就会变得很慢。解决方法是分表,或者迁移到专注于处理海量数据的NoSQL。——我们选择了后者。

2、拿到HBase我做的第一件工作是性能测试,主要验证了两件事:

a)HBase对数据操作的响应速度与当前表中的数据量无关,但是与数据的split以及本地缓存等配置项有很大关系。 比如rowKey的合理设计,使相关数据相邻存放;比如使用scan时setCatch(num)方法中num的取值。

b)HBase对数据操作的响应在毫秒级,满足我们前端显示的需要。

3、分页查询时,前端需要请求记录总数,用于计算总页数。然后再请求每页的内容,请求每页内容时两个主要参数(start,limit)。比如0,20;肯定是第一页数据,从第0条开始,请求20条数据。比如20,20;这就是第二页,从第20条开始请求20条数据,以此类推。

4、HBase获得记录总数很困难,浏览所有数据倒好说,我可以在数据库中存一下当前数据库中记录的总数。但如果是搜索功能怎么办?如果满足条件的记录有1亿条,我总不能先遍历一边记个数啊……听说在MapReduce层可以有办法完成总数的统计,以后有机会接触到我会研究一下写出来的。

5、既然HBase无法获得记录总数,那就采用那种不需要总页数的分页方式呗。比如微博、某些论坛那样,前端根本不去获取总记录数,只要知道后面还有没有数据就可以了,提供给用户“下一页”,或“下n页”的功能。我纠结与记录总数主要是因为之前UI控件的限制……

6、上述的分页展现形式类似于:用户浏览数据首页时,选页栏显示 1 2 3 4 5 6.....,当用户点到第5页时,选页栏显示 ... 3 4 5 6 7 8 ....。不提供用户随意输页号,也不提供最后一页的按钮。

7、HBase端处理时,肯定要用到scan,然后调用setFilter方法,使用pageFilter限制一下返回的记录条数。

8、我还设计了一种缓存机制,绑定每个登陆的用户,在用户浏览记录时,每个一定记录数(比如100条),记录一下这条记录的rowKey。这样在用户请求第100条到120条记录这一页时我的scan可以设置startRowKey为我刚才缓存的那个。这样可以避免把前面所有的数据scan出来后再逐条遍历去数数。

9、我使用了Spring最新提供的Spring Hadoop框架,这个框架为我管理了几乎所有的HBase Client资源,非常好用!我不用在scan完后手动调用close方法,我不用自己维护一个TablePool每次去选表,我不用自己创建Configuration实例,我不用自己去写将一条记录映射回实例的接口(实现当然还要自己写……,只要实现了RowMapper接口就可以了)。


这只是我目前在项目中自己摸索并使用的一种可行方案。

接下来打算补充一些关于搜素功能的实现思路,比如同时按时间范围、文件名、分类名、权限几个条件的搜索~

以及二级索引的实现方式,数据记录id自增的实现,数据定期定量删除等。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值