《HBase权威指南》读书笔记3

最新推荐文章于 2024-09-28 07:29:33 发布

alexxiyang

最新推荐文章于 2024-09-28 07:29:33 发布

阅读量2.1k

点赞数 2

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nsrainbow/article/details/49283731

版权

hadoop 专栏收录该内容

18 篇文章 3 订阅

订阅专栏

第3章客户端API：基础知识

所有修改都保证了行级别的原子性：要么读到最新的修改，要么等待系统允许写入改行修改
用户要尽量使用批处理(batch)更新来减少单独操作同一行数据的次数
写操作中设计的列的数目并不会影响该行数据的原子性，行原子性会同时保护到所有列
创建HTable实例（指的是在java中新建该类），每个实例都要扫描.META. 表，以检查该表是否存在，推荐用户只创建一次HTable实例，而且是每个线程创建一个
如果用户需要多个HTable实例，建议使用HTablePool类（类似连接池）

CRUD

还可以通过 KeyValue 来添加Put: Put add(KeyValue kv)
getFamilyMap() 可以遍历Put实例中每一个可用的KeyValue实例
用 has(family, qualifier) 来检查是否存在特定的单元格，而不需要遍历整个集合
Put.getRow() 可以获取rowkey
Put.heapSize() 可以计算当前Put实例所需的堆大小，既包含其中的数据，也包含内部数据结构所需的空间

KeyValue

KeyValue提供了一些比较器（可能可以进行服务器端排序？），列出可能用到的几种：

KeyComparator 比较 getKey()
KVComparator
RowComparator 比较 getRow()

客户端的写缓冲区

客户端有一个写缓冲区(默认大小2M)，收集一堆put，然后一次发给服务器
通过 table.setAutoFlush(false) 来激活缓冲区（只有在写非常频繁的情况下会用到）
hbase-site.xml 中的 hbase.client.write.buffer来调整大小

以下情况会激发缓冲区的刷写

激活写缓冲区之后要手动调用 flushCommits()
缓冲区满了的时候也会自动调用flushCommits()方法
table.close()也会触发刷写

注意：如果只存储大单元格，缓冲区的作用就不大，因为大部分时间是传输时间而不是开关socket的时间

Put列表

可以传入一个列表的 Put

void Put(List<Put> puts)

不过如果同时插入多个put，当其中某个出错的时候，前面几个会被正常插入，往后的put就都不会插入

而且客户端也不能保证服务器端的写入顺序

GET

get.exist(Get get) 方法，在需要检查一个比较大的列的时候能节省网络传输
Result getRowBefore 可以获取某个行之前的行

批量处理操作

put，get， delete 列表其实都是通过 batch() 方法实现的
直接使用batch(List<Action> actions, Object[] results, ... ) 可以同时传入3种实例中的任意一种
batch并不使用写缓冲区

注意：不可以把对同一行的put和delete放在一个批量处理里面，因为批量处理的顺序不可控

两种批量查询的区别

用batch(List<Row> actions, Object[] results)批量查和 Object[] batch(List<Row> actions) 的区别是

batch(List<Row> actions, Object[] results)可以返回部分结果
Object[] batch(List<Row> actions) 一旦出错，一条都没有

行锁

尽量不要使用行锁，如果必须使用，请一定节约占用锁的时间

扫描

通过 hbase-site.xml 中的 hbase.regionserver.lease.period 设定 ResultScanner 的租约
由于每次next()都要发一次请求，所以扫描器也有缓存，叫scanner caching ，默认是关闭的
通过 setBatch(5) 可以每次 next() 返回5列，注意是列！

各种特性

HRegionLocation getRegionLocation(row)

Map<HRegionInfo, HServerAddress> getRegionInfo()

这些方法可以获取某一行数据的具体位置，或者所在的region信息

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。