hbase scan 部分用法

1、创建两张测试表

hbase(main):044:0> create 'rtusers','address','info';

put 'rtusers','05','address:city','guangzhou';
put 'rtusers','05','address:contry','china';
put 'rtusers','05','address:province','zhejiang';
put 'rtusers','05','info:age','31';
put 'rtusers','05','info:birthday','1987-06-17';
put 'rtusers','05','info:company','act';

hbase(main):044:0> create 'rtusers2','address','info';
hbase(main):045:0* 
hbase(main):046:0*  put 'rtusers2','aibu','address:city','zhuhai';
hbase(main):047:0*  put 'rtusers2','aibu','address:contry','china';
hbase(main):048:0*  put 'rtusers2','aibu','address:province','guangdong';
hbase(main):049:0*  put 'rtusers2','aibu','info:age','21';
hbase(main):050:0*  put 'rtusers2','aibu','info:birthday','1987-06-17';
hbase(main):051:0*  put 'rtusers2','aibu','info:company','jinshan';
hbase(main):057:0> 
hbase(main):058:0*  put 'rtusers2','bili','address:city','lasa';
hbase(main):059:0*  put 'rtusers2','bili','address:contry','china';
hbase(main):060:0*  put 'rtusers2','bili','address:province','xizang';
hbase(main):061:0*  put 'rtusers2','bili','info:age','22';
hbase(main):062:0*  put 'rtusers2','bili','info:birthday','1987-06-17';
hbase(main):063:0*  put 'rtusers2','bili','info:company','jinshan';
hbase(main):064:0* 
hbase(main):065:0* 
hbase(main):066:0* 
hbase(main):067:0*  put 'rtusers2','cily','address:city','sanya';
hbase(main):068:0*  put 'rtusers2','cily','address:contry','china';
hbase(main):069:0*  put 'rtusers2','cily','address:province','hainan';
hbase(main):070:0*  put 'rtusers2','cily','info:age','36';
hbase(main):071:0*  put 'rtusers2','cily','info:birthday','1987-06-17';
hbase(main):072:0*  put 'rtusers2','cily','info:company','jinshan';

2、查看scan的用法


使用 help 'scan' 命令可以查看scan的语法以及用法,关于scan命令中filter的使用规则如下:
hbase(main):010:0> scan help
{}中的语法是ruby的map的语法,FILTER必须大写,filter的参数是根据构造方法来的,也就是相当于java中的new Filter('param1','param2')等,这里只是省略了new参数而已。
当然同样可以使用ruby中new对象的方式,只是那样就必须使用全限定名称。后面会举一个全限定名称的例子。
比较器主要有以下几种:

BinaryComparator
按字节索引顺序比较指定字节数组,采用Bytes.compareTo(byte[]),比如:binary:\x00\x00\x02
BinaryPrefixComparator
跟前面相同,只是比较左端的数据是否相同,比如:binaryprefix:\x00\x00
NullComparator
判断给定的是否为空,不常用
BitComparator
按位比较 a BitwiseOp class 做异或,与,并操作,不常用
RegexStringComparator
提供一个正则的比较器,仅支持 EQUAL 和非EQUAL,比如:regexstring:ab*add
SubstringComparator
判断提供的子串是否出现在table的value中。比如:substring:great

 

3、限制条件

#查询父列族为address的数据,和子列为city的数据
scan 'rtusers', {COLUMNS => 'address'}

scan 'rtusers', {COLUMNS => 'address:city'}

 

#查询列簇family为address和info的数据
scan 'rtusers', {COLUMNS => ['address', 'info']}

限制查找条数
#查全表前十行数据
scan 'rtusers',{LIMIT=>10}

限制时间范围
#1621331699014这条数据查不到,是[)的算法
scan 'rtusers',{COLUMNS=>['address'],TIMERANGE=>[1621330867949,1621331699014],LIMIT=>10}

 

4、filter过滤部分


#支持的filters
hbase(main):009:0> show_filters

#PrefixFilter:rowKey前缀过滤
scan 'rtusers',{LIMIT=>10,FILTER=>"PrefixFilter('04')"}
ROW                                                   COLUMN+CELL                                                                                                                                                  
 04                                                   column=address:city, timestamp=1621331698963, value=shanghai                                                                                                 
 04                                                   column=address:contry, timestamp=1621331698982, value=china                                                                                                  
 04                                                   column=address:province, timestamp=1621331698988, value=zhejiang                                                                                             
 04                                                   column=info:age, timestamp=1621331698992, value=27                                                                                                           
 04                                                   column=info:birthday, timestamp=1621331698996, value=1987-06-17                                                                                              
 04                                                   column=info:company, timestamp=1621331699001, value=tiktop  

#模糊查询,包含0字符的rowkey都会被查询到
scan 'rtusers',{LIMIT=>10,FILTER=>"PrefixFilter('0')"}

#查value包含北京的row
scan 'rtusers',{LIMIT=>10,FILTER=>"ValueFilter(=,'substring:beijing')"}
ROW                                                   COLUMN+CELL                                                                                                                                                  
 01                                                   column=address:city, timestamp=1619148401805, value=beijing                                                                                                  
 01                                                   column=address:province, timestamp=1619148401822, value=beijing   

#查value包含北京的row,限定column
scan 'rtusers',{LIMIT=>10,FILTER=>"ValueFilter(=,'substring:beijing')",COLUMNS=>['address:province']}
ROW                                                   COLUMN+CELL                                                                                                                                                  
 01                                                   column=address:province, timestamp=1619148401822, value=beijing   

#时间过滤器,只取两条数据
scan 'rtusers', { FILTER => "TimestampsFilter ( 1621330867949, 1621331699014)"}
ROW                                                   COLUMN+CELL                                                                                                                                                  
 03                                                   column=address:city, timestamp=1621330867949, value=nanjing                                                                                                  
 05                                                   column=address:province, timestamp=1621331699014, value=zhejiang   


#通过startrow,stoprow来进行查询(这种也比较快,实际操作中如果不能通过rowkey).是[)的算法.也就是只能查到a-b的rowkey
scan 'rtusers2',{STARTROW => 'a',STOPROW =>'c',LIMIT=>10}

#子列为拉萨,value等于lasa的数据.这里binary中的数据一定要是二进制字符串而不是具体的值.但是可以看到用字符串也ok
scan 'rtusers2',{LIMIT=>10,FILTER=>"SingleColumnValueFilter('address','city',=,'binary:lasa')"}
ROW                                                   COLUMN+CELL                                                                                                                                                  
 bili                                                 column=address:city, timestamp=1621407842236, value=lasa                                                                                                     
 bili                                                 column=address:contry, timestamp=1621407842240, value=china                                                                                                  
 bili                                                 column=address:province, timestamp=1621407842244, value=xizang                                                                                               
 bili                                                 column=info:age, timestamp=1621407842246, value=22                                                                                                           
 bili                                                 column=info:birthday, timestamp=1621407842249, value=1987-06-17                                                                                              
 bili                                                 column=info:company, timestamp=1621407842255, value=jinshan 

#查城市是拉萨的所有列簇中的contry为china的列
scan 'rtusers2',{LIMIT=>3,FILTER=>"(SingleColumnValueFilter('address','city',=,'binary:lasa')) AND (ColumnPrefixFilter('contry') AND ValueFilter(=,'substring:china'))"}
hbase(main):097:0*  scan 'rtusers2',{LIMIT=>3,FILTER=>"(SingleColumnValueFilter('address','city',=,'binary:lasa')) AND (ColumnPrefixFilter('contry') AND ValueFilter(=,'substring:china'))"}
ROW                                                   COLUMN+CELL                                                                                                                                                  
 bili                                                 column=address:contry, timestamp=1621407842240, value=china  

#和LIMIT有异曲同工之妙,查前两条数据
scan 'rtusers2',{FILTER=>"PageFilter(2)"}

#查询rowkey中包含特定前缀的数据。测试了后缀也行,中间字符串也行,也就是相当于模糊查询吧
scan 'rtusers2',{FILTER=>"RowFilter(=,'substring:bi')"}
scan 'rtusers2',{FILTER=>"RowFilter(=,'substring:ib')"}

 


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值