hbase建表，删表，修改，查询（get,scan,布隆过滤器）

看不见的罗辑

已于 2022-11-25 10:43:02 修改

阅读量2k

点赞数 2

文章标签： hbase 数据库 DDL DML

于 2021-12-30 21:07:34 首次发布

本文链接：https://blog.csdn.net/a284365/article/details/122244552

版权

本文详细介绍了HBase的建表、插入数据、查询及过滤器的使用方法。从创建表、添加列族到使用Put插入数据，再到通过Get和Scan查询数据，涵盖了HBase的基本操作。同时，讲解了不同类型的过滤器，如RowFilter、ValueFilter和SingleColumnValueFilter等，用于高效地过滤和检索数据。

摘要由CSDN通过智能技术生成

文章目录

建表

直接建表：

create ‘表名’,‘列族名'

如果之后想加入新的列族：

alter ‘表名’,‘列族名’

补充：

alter ‘表名’，{NAME=‘列族名’，属性1=>属性值 1，属性2=>属性值2}， {NAME=>‘列族名2’ ，属性 1=>属性值1.....}

如果是不存在的列族，就是添加，如果是已存在的列族，就是修改属性.(eg:version,bloofilter,ttl…)
其中Alter 允许的列族级别属性 BLOOMFILTER, COMPRESSION ,TTL, BLOCKSIZE, BLOCKCACH …

如果建表时想加入一些设置：

create ‘表名’,{NAME=>‘列族名’,VERSIONS=>‘’,BLOCKCACHE=>‘’, BLOOMFILTER=>‘’,COMPRESSION=>‘’,TTL=>‘’},{NAME=>’列族名’, 属性=>属性值........}

bloomfilter是设置布隆过滤器(一般是none，可以设置为row,rowcol)，compression是设置数据压缩方式，TTL是设置数据过期时间
查看表的属性：

describe '表名‘

删除表：

Disable '表名‘
drop ‘表名‘

删除列族：

alter‘表名’,‘delete’=>’列族名’

判断表是否存在：

exists '表名‘

为某列族的某列数据拼接后缀数据：

Append ‘表名’，‘行键’，‘列名’，‘拼接值’

删除某个列族的某个字段数据：

delete ‘表名’，‘行键’，‘列族：列’

插入数据put

put只能每次插入一个行键对应的一个列族的一个列属性的值，不能直接插入多条数据，区别mysql的一条语句查询。
eg:

put  'student','001','grade:Database',92
put  'student','001','grade:Math',98
put 'student','003','doom:phone',1110989009

hbase查询

list

hbase所有属性：columns,startrow,endrow,timerange,versions,fliter，limit

get

get是直接使用的行键进行查询是索引查找，速度最快
无论是get还是scan都使用[ ]来查询多个列族字段的数据或者查询时间戳范围数据，如columns=>[‘info:name’,‘info:sno’,‘grade:Database’]，如果只是一个列族的单字段数据可以不使用[ ]
eg:
versions=>3表示取过去3个版本的数据，但是前提是需要先设置当前字段有三个版本

get 'student','001',{COLUMNS=>['info:name','info:sno'],TIMERANGE=>[1639034014464,1639034055161],VERSIONS=>3}

scan

scan是基于范围查找，另外Scan命令若不指定显示的版本数，则显示拥有最大（最新）时间戳的数据版本。
直接查看表中的前10行数据:

scan 'student'，{LIMIT=>10}

更广用法：
eg:

scan 'student',{COLUMNS=>['info:name' ,'info:dept' ], STARTROW=>'002',STOPROW=>'005',TIMERANGE=>[1639034014464,1639034055161],VERSIONS=>3}

如果想要显示所有版本数据就必须加上versions

布隆过滤器

查找形式多样，支持多种形式的查找
RowFilter
行键过滤器
查询student表中rowkey中包含123的数据。

scan 'student', {FILTER=> "RowFilter(=,'substring:123')"}

ValueFilter
值过滤器
查询student表中值包含123的数据，因为hbase在存储的时候是以key-value格式的列式存储，在查询遍历的时候每行每列都会遍历,所以才有这个过滤器.
除了可以查询等于，也可以查询大于、大于等于、小于、小于等于、不等于，比较的方式是字典排序。
除非在数据存储的时候存储的类型为数字类型。
substring:包含的意思、binary:精确查询、regexstring:正则匹配、null:空值比较、long:数字比较

scan 'student',{FILTER=> "ValueFilter(=，'substring:123')"}

SingleColumnValueFilter
单列值过滤器
查询student表中列簇为info.列名为server的所有数据。
注意:在使用单列值过滤器必须保证每行数据都有要查询的列，因为查询结果也会返回没有要查询的列的整行记录。

scan 'student',{FILTER=>"SingleColumnValueFilter('info','server',=,'binary:chds-2:60020')"}

PrefixFilter
行键前缀过滤器
查询student表中行键以123开头的所有数据

scan 'student',{FILTER=>"PrefixFilter('123')"}

ColumnPrefixFilter
单列名前缀过滤器
查询student表中以server开头的列的所有数据

scan 'student',{FILTER=>"ColumnPrefixFilter('server')"}

MultipleColumnPrefixFilter
多列名前缀过滤器
查询student表中以server和regioninfo开头的列的所有数据

scan 'student',{FILTER=>"MultipleColumnPrefixFilter('servedr','regioninfo')"}

PageFilter
分页过滤器
分页过滤器要和startRow搭配使用，和LIMIT功能类似。
过滤器搭配使用的时候分页过滤器要放在最后。
但是如果是页面开发使用java api操作，分页过滤器有一个缺点就是必须一页一页翻页，因为要传递startRow的值，和ES的深度分页类似

scan 'student',{FILTER=>"PageFilter(2)",STARTROW=>''}
scan 'student',{LIMIT=>2,STARTROW=>''}

InclusiveStopFilter
包含结尾过滤器
endRow在使用过程中查询结果不包括endRow，可以搭配使用这个过滤器。

scan 'student',{STARTROW=>'',ENDROW=>'',FILTER=>"InclusiveStopFilter('')"}

FamilyFilter
列簇过滤器

scan 'student',{FILTER=>"FamilyFilter(=,'binary:info')"}

QualifierFilter
列名过滤器

scan 'student',{FILTER=>"QualifierFilter(=,'binary:server')"}

SingleColumnValueExcludeFilter
单列值不包含过滤器，和单列值过滤器类似

scan 'student',{FILTER=>"SingleColumnValueExcludeFilter('info','server',=,'binary:13270')

看不见的罗辑

关注

2
点赞
踩
21

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫