HBase实现分页浏览

文中可能涉及到的API:

Hadoop/HDFS:http://hadoop.apache.org/common/docs/current/api/

HBase: http://hbase.apache.org/apidocs/index.html?overview-summary.html

Begin!

 

最近做的项目用到了HBase处理海量的数据记录,并在前端UI提供了查询浏览功能。

 

起初,这部分功能是使用Postgresql实现的,顺理成章的实现了分页浏览与按指定字段排序功能。

但是,由于产品处理数据量级的改变(预估上亿,离真正的海量还很远~,但已经超出的PG可以快速响应的量级),产品设计尸从产品可扩展性与数据可靠性的角度考虑,要我将PG中的一些数据切到HBase中。但是前端UI又不能有明显改变。

于是……就有了这篇文档。

本篇文档的目的在于为向我一样初步使用HBase的攻城尸提供一些思路和Keyword。

————————————————————————————————————————————————

1、PG数据库(包括其他一些关系型数据库)据说在单表记录数超过100w时就会变得很慢。解决方法是分表,或者迁移到专注于处理海量数据的NoSQL。——我们选择了后者。

2、拿到HBase我做的第一件工作是性能测试,主要验证了两件事:

a)HBase对数据操作的响应速度与当前表中的数据量无关,但是与数据的split以及本地缓存等配置项有很大关系。 比如rowKey的合理设计,使相关数据相邻存放;比如使用scan时setCatch(num)方法中num的取值。

b)HBase对数据操作的响应在毫秒级,满足我们前端显示的需要。

3、分页查询时,前端需要请求记录总数,用于计算总页数。然后再请求每页的内容,请求每页内容时两个主要参数(start,limit)。比如0,20;肯定是第一页数据,从第0条开始,请求20条数据。比如20,20;这就是第二页,从第20条开始请求20条数据,以此类推。

4、HBase获得记录总数很困难,浏览所有数据倒好说,我可以在数据库中存一下当前数据库中记录的总数。但如果是搜索功能怎么办?如果满足条件的记录有1亿条,我总不能先遍历一边记个数啊……听说在MapReduce层可以有办法完成总数的统计,以后有机会接触到我会研究一下写出来的。

5、既然HBase无法获得记录总数,那就采用那种不需要总页数的分页方式呗。比如微博、某些论坛那样,前端根本不去获取总记录数,只要知道后面还有没有数据就可以了,提供给用户“下一页”,或“下n页”的功能。我纠结与记录总数主要是因为之前UI控件的限制……

6、上述的分页展现形式类似于:用户浏览数据首页时,选页栏显示 1 2 3 4 5 6.....,当用户点到第5页时,选页栏显示 ... 3 4 5 6 7 8 ....。不提供用户随意输页号,也不提供最后一页的按钮。

7、HBase端处理时,肯定要用到scan,然后调用setFilter方法,使用pageFilter限制一下返回的记录条数。

8、我还设计了一种缓存机制,绑定每个登陆的用户,在用户浏览记录时,每个一定记录数(比如100条),记录一下这条记录的rowKey。这样在用户请求第100条到120条记录这一页时我的scan可以设置startRowKey为我刚才缓存的那个。这样可以避免把前面所有的数据scan出来后再逐条遍历去数数。

9、我使用了Spring最新提供的Spring Hadoop框架,这个框架为我管理了几乎所有的HBase Client资源,非常好用!我不用在scan完后手动调用close方法,我不用自己维护一个TablePool每次去选表,我不用自己创建Configuration实例,我不用自己去写将一条记录映射回实例的接口(实现当然还要自己写……,只要实现了RowMapper接口就可以了)。

 

这只是我目前在项目中自己摸索并使用的一种可行方案。

接下来打算补充一些关于搜素功能的实现思路,比如同时按时间范围、文件名、分类名、权限几个条件的搜索~

以及二级索引的实现方式,数据记录id自增的实现,数据定期定量删除等。

 

Author:Pirate Leo

myBlog: http://blog.csdn.net/pirateleo/

myEmail: codeevoship@gmail.com

转载请注明出处,谢谢。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值