hbase 写入过程

原创 2016年08月30日 23:00:53

1.基本原理

hbase客户端通过rpc调用将put、delete数据请求提交到对应的regionserver,regionserver对请求进行处理,并将数据最终写入hfile中,进行持久化保存。
hbase为了保证随机读取的性能,所以hfile里面的rowkey是有序的。当客户端的请求在到达regionserver之后,为了保证写入rowkey的有序性,所以不能将数据立刻写入到hfile中,而是将每个变更操作保存在内存中,也就是metastore中。metastore能够很方便的支持操作的随机插入,并保证所有的操作在内存中是有序的。当metastore达到一定的量之后,会将metastore里面的数据flush到hfile中,这样能充分利用hadoop写入大文件的性能优势,提高写入性能。
由于metastore是存放在内存中,如果regionserver因为某种原因死了,会导致内存中数据丢失。所有为了保证数据不丢失,hbase将更新操作在写入metastore之前会写入到一个write ahead log(WAL)中。WAL文件是追加、顺序写入的,WAL每个regionserver只有一个,同一个regionserver上所有region写入同一个的WAL文件。这样当某个regionserver失败时,可以通过WAL文件,将所有的操作顺序重新加载到metastore中。

2.流程

整个写入顺序图流程如下:

这里写图片描述

  • 客户端查找对应region
    客户端根据要操作rowkey,查找rowkey对应的region。查找region的过程为通过zk获取到hbase:meta表所在region。通过查找hbase:meta可以找到要更新的表每个region的startkey、endkey以及所处机器。由于hbase的rowkey有序分布在region上,所以通过每个region的startkey、endkey可以确定当前要操作rowkey的region信息。
    由于通过zk、hbase:meta查找region信息比较耗时,所以客户端会缓存表的region信息。在请求region失效时,会重新加载表的region信息。
  • regionserver写入WAL文件
    在将操作写入metastore之前,会将操作先写入到WAL文件中。WAL文件的是顺序保存操作记录的,所有每次新操作直接追加到regionserver对应的WAL文件尾部即可。
  • regionserver写入metastore
    将操作写入到WAL之后,hbase会将操作写入到metastore中。在metastore是一个排序的跳跃表,能够保证rowkey按照hfile的顺序进行排序。执行快速查找。
  • regionserver最终flush入hfile
    regionserver将操作写入的hfile不是同步发生的,是需要在metastore的内存达到一定的量(两种情况: 1.metastore的内存达到设置刷新值得90%,2:regionserver上所有region的metastore的内存占用量达到总内存的设置占用量,如0.4)之后,才会将metastore里面所有的操作写入到hfile中。同时会记录已经写入的操作的顺序id,便于WAL的日志清理线程删除WAL中无用日志信息。

参考文章:
hbase写路径

目前这篇文章中没有详细的介绍WAL文件的roll、clean的过程以及metastore的数据格式,接下来文章会详细的这些。

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

HBase写入数据的过程

写入数据的详细过程? 见此地址 http://my.oschina.net/u/1464779/blog/265137 怎么确认写入操作成功呢? 只要在WAL(write ahead...

hbase 读写过程

Hbase在生态系统中的位置 Hbase存储的逻辑视图 Hbase的存储格式 Hbase写数据流程 Hbase快速响应数据   Hbase在生态系统中的位置   HBase位于结构化存储...

hbase表结构模型

hbase 表结构模式、表属性、预分区设计原则

hbase入库过程中JVM 新生代大小配置试验

hbase入库过程中,除了hbase-site.xml中的一些常见的配置参数,其实很关键的一个环节是hbase-env.sh中的jvm参数配置。之前修改的一个重要参数就是新生代的大小。       ...

C#通过thrift连接hbase过程

  • 2013-12-12 23:45
  • 218KB
  • 下载

hbase 源代码分析 (7) put 过程 详解

1)首先根据获得一个客户端的BufferedMutator; 2)当数据量到一定时,或者关闭table,或者手动提交时才开始提交。 3)提前全会分布获取每个put记录的ServiceName,然后建立...

cdh 5.8 hbase安装Phoenix 4.8的过程

一,Phoenix的介绍 1,Phoenix, (“凤凰”),它相当于一个Java中间件,提供jdbc连接,操作hbase数据表。2,Apache Phoenix是构建在HBase之上的关系型数据库...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)