python模糊查询hbase的rowkey_hbase 基于rowkey 模糊查询如何做效率高？

最新推荐文章于 2023-09-08 18:21:27 发布

weixin_39886172

最新推荐文章于 2023-09-08 18:21:27 发布

阅读量796

点赞数

文章标签： python模糊查询hbase的rowkey

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39886172/article/details/111459243

版权

哈哈哈，恰好我也在做一个类似的问题；hbase权威指南133页，关于rowkey有一个内建的过滤器：

Scan scan = new Scan();

Filter filter = new RowFilter(CompareOp.EQUAL,new RegexStringComparator(".*京Q00"));

scan.setFilter(filter);

ResultScanner scanner;

try {

scanner = table.getScanner(scan);

for(Result res:scanner)

{

System.out.println(res);

}

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

上面这段代码应该能够解决你的问题啦，enjoy it.

——————————————————分割线——————————————————

更新于2015.12.20

@周工因为是对rowkey的过滤，所以你提到的这个问题其实没有那么夸张，你可以把rowkey理解为hbase的索引

下图1.1(hbase查询性能图)可以很好地说明这个问题。hbase在对key值进行过滤尤其是rowkey(行键)进行过滤的时候，性能是最优的。

虽然你没有对非常慢进行说明，我就大概猜一下千万级别大于1s算非常慢的话，之前在进行rowkey过滤操作的时候，对应200w数据量，scan过程(即完成匹配消耗时间)的耗时在100ms之内，且是非线性增长的(数据越大耗时增长越缓慢)，只是根据匹配内容数量，会有读取数据耗时(可以分页进行输出)

我在前一段时间对hbase的读写性能进行过测试，虽然没有测试各个筛选器的效率，但是可以对hbase对rowkey的读取数据耗时有一个直观的感受，现在贴出来在下面，希望对你有帮助(知乎不能上传表格)：

根据测试数据可知：

1.当读取的数据量小于50000条时，hbase的数据读取都在毫秒级别，此时的时间消耗大多用于程序启停的消耗。

2.在读取数据时，可通过设定单次从hbase取到内存的数据量大小，从而提高读取的效率，当数据量特别大的时候，cach值得设定对读取速率有很大的影响，通常将cach值设定为数据同一数量级时能够获得较好的效率。

public static ResultScanner scanAll(HTable table,int num) throws IOException{

Scan s=new Scan();

s.setCaching(int cach);//设置hbase单次获取到内存的数据条数

ResultScanner rs=table.getScanner(s);

return rs;

}

3.当使用scanner函数进行整张表或者大批量的查询时，合理的设置“int cach”可大量减少查询时间。

——————————————————分割线——————————————————

综上，由于hbase对rowkey的索引机制，即使在过滤大量数据时，对rowkey相关的操作也依然非常快速，瓶颈在数据读出上。

但是，如果是要对value进行过滤时，效率就会出现你说的非常慢了，至于对value的过滤使用Apache提供的别的搜索工具进行集成就好，比如Lucene。

以上。

weixin_39886172

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python模糊查询hbase的rowkey_hbase 基于rowkey 模糊查询如何做效率高？

哈哈哈，恰好我也在做一个类似的问题；hbase权威指南133页，关于rowkey有一个内建的过滤器：Scan scan = new Scan();Filter filter = new RowFilter(CompareOp.EQUAL,new RegexStringComparator(".*京Q00"));scan.setFilter(filter);ResultScanner scanner...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。