哈哈哈,恰好我也在做一个类似的问题;hbase权威指南133页,关于rowkey有一个内建的过滤器:
Scan scan = new Scan();
Filter filter = new RowFilter(CompareOp.EQUAL,new RegexStringComparator(".*京Q00"));
scan.setFilter(filter);
ResultScanner scanner;
try {
scanner = table.getScanner(scan);
for(Result res:scanner)
{
System.out.println(res);
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
上面这段代码应该能够解决你的问题啦,enjoy it.
——————————————————分割线——————————————————
更新于2015.12.20
@周工 因为是对rowkey的过滤,所以你提到的这个问题其实没有那么夸张,你可以把rowkey理解为hbase的索引
下图1.1(hbase查询性能图)可以很好地说明这个问题。hbase在对key值进行过滤尤其是rowkey(行键)进行过滤的时候,性能是最优的。
虽然你没有对非常慢进行说明,我就大概猜一下千万级别大于1s算非常慢的话,之前在进行rowkey过滤操作的时候,对应200w数据量,scan过程(即完成匹配消耗时间)的耗时在100ms之内,且是非线性增长的(数据越大耗时增长越缓慢),只是根据匹配内容数量,会有读取数据耗时(可以分页进行输出)
我在前一段时间对hbase的读写性能进行过测试,虽然没有测试各个筛选器的效率,但是可以对hbase对rowkey的读取数据耗时有一个直观的感受,现在贴出来在下面,希望对你有帮助(知乎不能上传表格):
根据测试数据可知:
1.当读取的数据量小于50000条时,hbase的数据读取都在毫秒级别,此时的时间消耗大多用于程序启停的消耗。
2.在读取数据时,可通过设定单次从hbase取到内存的数据量大小,从而提高读取的效率,当数据量特别大的时候,cach值得设定对读取速率有很大的影响,通常将cach值设定为数据同一数量级时能够获得较好的效率。
public static ResultScanner scanAll(HTable table,int num) throws IOException{
Scan s=new Scan();
s.setCaching(int cach);//设置hbase单次获取到内存的数据条数
ResultScanner rs=table.getScanner(s);
return rs;
}
3.当使用scanner函数进行整张表或者大批量的查询时,合理的设置“int cach”可大量减少查询时间。
——————————————————分割线——————————————————
综上,由于hbase对rowkey的索引机制,即使在过滤大量数据时,对rowkey相关的操作也依然非常快速,瓶颈在数据读出上。
但是,如果是要对value进行过滤时,效率就会出现你说的非常慢了,至于对value的过滤使用Apache提供的别的搜索工具进行集成就好,比如Lucene。
以上。