【HBase入门】4. 常用 Shell 操作(1)

前言

我们可以以shell的方式来维护和管理HBase。例如:执行建表语句、执行增删改查操作等等。

需求

有以下订单数据,我们想要将这样的一些数据保存到HBase中。

订单ID订单状态支付金额支付方式ID用户ID操作时间商品分类
001已付款200.510012020-5-2 18:08:53手机;

接下来,我们将使用HBase shell来进行以下操作:
1.创建表
2.添加数据
3.更新数据
4.删除数据
5.查询数据

创建表

在HBase中,所有的数据也都是保存在表中的。要将订单数据保存到HBase中,首先需要将表创建出来。

启动HBase Shell

HBase的shell其实JRuby的IRB(交互式的Ruby),但在其中添加了一些HBase的命令。
启动HBase shell:
hbase shell

建表

语法:
create '表名','列蔟名'...

创建订单表,表名为ORDER_INFO,该表有一个列蔟为C1
create ‘ORDER_INFO’,‘C1’;

注意:

  • create要写成小写
  • 一个表可以包含若干个列蔟
  • 命令解析:调用hbase提供的ruby脚本的create方法,传递两个字符串参数
  • 通过下面链接可以看到每个命令都是一个ruby脚本

hbase shell

查看表

hbase(main):005:0> list
TABLE                                                                                                                                                                    
ORDER_INFO                                                                                                                                                               
1 row(s)
Took 0.0378 seconds                                                                                                                                                      
=> ["ORDER_INFO"]

删除表

要删除某个表,必须要先禁用表
禁用表
语法:disable "表名"
删除表
语法:drop "表名"
删除ORDER_INFO表
disable "ORDER_INFO"
drop "ORDER_INFO"

添加数据

需求

接下来,我们需要往订单表中添加以下数据。

订单ID订单状态支付金额支付方式ID用户ID操作时间商品分类
IDSTATUSPAY_MONEYPAYWAYUSER_IDOPERATION_DATECATEGORY
000001已提交4070149441912020-04-2512:09:16
PUT操作

HBase中的put命令,可以用来将数据保存到表中。但put一次只能保存一个列的值。以下是put的语法结构:
put '表名','ROWKEY','列蔟名:列名','值'

要添加以上的数据,需要使用7次put操作。如下:

put 'ORDER_INFO','000001','C1:ID','000001'
put 'ORDER_INFO','000001','C1:STATUS','已提交'
put 'ORDER_INFO','000001','C1:PAY_MONEY',4070
put 'ORDER_INFO','000001','C1:PAYWAY',1
put 'ORDER_INFO','000001','C1:USER_ID',4944191
put 'ORDER_INFO','000001','C1:OPERATION_DATE','2020-04-25 12:09:16'
put 'ORDER_INFO','000001','C1:CATEGORY','手机;'

查看添加的数据

需求
要求将rowkey为:000001对应的数据查询出来。
get命令
在HBase中,可以使用get命令来获取单独的一行数据。语法:
get '表名','rowkey'
查询指定订单ID的数据
get 'ORDER_INFO','000001'

COLUMNCELL
C1:CATEGORYtimestamp=1588415690678, value=\xE6\x89\x8B\xE6\x9C\xBA;
C1:OPERATION_DATEtimestamp=1588415689773, value=2020-04-25 12:09:16
C1:PAYWAYtimestamp=1588415689681, value=1
C1:PAY_MONEYtimestamp=1588415689643, value=4070
C1:STATUStimestamp=1588415689591, value=\xE5\xB7\xB2\xE6\x8F\x90\xE4\xBA\xA4
C1:USER_IDtimestamp=1588415689721, value=4944191

显示中文
在HBase shell中,如果在数据中出现了一些中文,默认HBase shell中显示出来的是十六进制编码。要想将这些编码显示为中文,我们需要在get命令后添加一个属性:{FORMATTER => 'toString'}

  • 查看订单的数据
    get 'ORDER_INFO','000001', {FORMATTER => 'toString'}
    注:
    • { key => value},这个是Ruby语法,表示定义一个HASH结构
    • get是一个HBase Ruby方法,’ORDER_INFO’、’000001’、{FORMATTER => ‘toString’}是put方法的三个参数
    • FORMATTER要使用大写
    • 在Ruby中用{}表示一个字典,类似于hashtable,FORMATTER表示key、’toString’表示值

更新操作

需求
将订单ID为000001的状态,更改为「已付款」
使用put来更新数据
同样,在HBase中,也是使用put命令来进行数据的更新,语法与之前的添加数据一模一样。
更新指定的列
put 'ORDER_INFO', '000001', 'C1:STATUS', '已付款'

注意:

  • HBase中会自动维护数据的版本
  • 每当执行一次put后,都会重新生成新的时间戳

C1:STATUS timestamp=1588748844082, value=已提交
C1:STATUS timestamp=1588748952074, value=已付款
C1:STATUS timestamp=1588748994244, value=已付款

删除操作

删除状态列数据

需求
将订单ID为000001的状态列删除。
delete命令
在HBase中,可以使用delete命令来将一个单元格的数据删除。
语法格式如下:
delete '表名', 'rowkey', '列蔟:列'。
注意:此处HBase默认会保存多个时间戳的版本数据,所以这里的delete删除的是最新版本的列数据。
删除指定的列
delete 'ORDER_INFO','000001','C1:STATUS'
删除整行数据

  • 需求
    将订单ID为000001的信息全部删除(删除所有的列)
  • deleteall命令
    deleteall命令可以将指定rowkey对应的所有列全部删除。语法:
    deleteall '表名','rowkey'
  • 删除指定的订单
    deleteall 'ORDER_INFO','000001'

清空表

  • 需求
    将ORDER_INFO的数据全部删除
  • truncate命令
    truncate命令用来清空某个表中的所有数据。语法:
    truncate "表名"
  • 清空ORDER_INFO的所有数据
    truncate 'ORDER_INFO'
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
要获取每个部门的人数和平均薪资,需要使用HBase Shell中的聚合函数。假设我们的表名为employee,包含以下列族和列: - info:dept - 部门信息 - info:name - 姓名 - info:salary - 薪资 首先,我们可以使用scan命令查看表中的所有数据: ``` hbase(main):001:0> scan 'employee' ``` 接下来,我们使用count和avg函数获取每个部门的人数和平均薪资。假设我们要获取部门编号为001和002的信息: ``` hbase(main):002:0> import org.apache.hadoop.hbase.filter.CompareFilter hbase(main):003:0> import org.apache.hadoop.hbase.filter.SingleColumnValueFilter hbase(main):004:0> import org.apache.hadoop.hbase.filter.SubstringComparator hbase(main):005:0> import org.apache.hadoop.hbase.util.Bytes hbase(main):006:0> hbase(main):007:0> # 获取部门001的人数和平均薪资 hbase(main):008:0> scan 'employee', { hbase(main):009:0> filter: SingleColumnValueFilter.new(Bytes.toBytes('info'), Bytes.toBytes('dept'), CompareFilter::CompareOp.valueOf('EQUAL'), SubstringComparator.new('001')), hbase(main):010:0> attributes: {GROUP_COLUMNS => true}, hbase(main):011:0> caching: 1000 hbase(main):012:0> } hbase(main):013:0> hbase(main):014:0> # 获取部门002的人数和平均薪资 hbase(main):015:0> scan 'employee', { hbase(main):016:0> filter: SingleColumnValueFilter.new(Bytes.toBytes('info'), Bytes.toBytes('dept'), CompareFilter::CompareOp.valueOf('EQUAL'), SubstringComparator.new('002')), hbase(main):017:0> attributes: {GROUP_COLUMNS => true}, hbase(main):018:0> caching: 1000 hbase(main):019:0> } ``` 以上命令使用了SingleColumnValueFilter过滤器,以筛选出部门编号包含"001"或"002"的所有行。然后,使用GROUP_COLUMNS选项分组,并使用count和avg函数聚合数据。最后,我们可以从输出中获取部门人数和平均薪资的信息。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

csdnGuoYuying

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值