HBase分布式存储系统
Michael_Shentu
感兴趣方向:分布式计算与存储,广告计算学,分布式数据挖掘与机器学习,Hadoop,Spark,HBase
展开
-
hbase中关于scan的操作
昨天在检查线上的mapreduce job的时候 发现在inputformat类中进行hbase scan操作的过程中出现了取到了重复的rowkey。通过hbase shell 获取到的rowkey数量小于通过hbase api获取到的rowkey。一时还没搞明白怎么回事,最后把目光scan 上面 发现之前为了优化scan操作 进行了 cache 和batch的设置。而batch的设置为10 也就原创 2013-12-17 10:24:21 · 2147 阅读 · 0 评论 -
HBase中的LeaseException异常问题
最近的工作中,有个对hbase的批量scan处理,HBase regionserver的log中出现了如下错误:org.apache.hadoop.hbase.regionserver.LeaseException: lease '-8841369309248784313' does not exist at org.apache.hadoop.hbase.regio原创 2014-01-06 12:11:09 · 4510 阅读 · 1 评论 -
HBase与BigTable的比较
HBase是Google的BigTable架构的一个开源实现。但是我个人觉得,要做到充分了解下面两点还是有点困难的:一 HBase涵盖了BigTable规范的哪些部分?二 HBase与BigTable仍然有哪些区别?下面我将对这两个系统做些比较。在做比较之前,我要指出一个事实:HBase是非常接近BigTable论文描述的东西。撇开一些细微的不同,比如HBase 0.2原创 2014-01-14 17:08:25 · 5065 阅读 · 0 评论 -
客户端如何定位regionserver
HBase的table是该region切分的,client操作一个row的时候,如何知道这个row对应的region是在哪台Region server上呢?这里有个region location过程。主要涉及到2张系统表,-ROOT-,.META.。其结构见图 在zookeeper的/hbase/root-region-server节点中存着-ROOT-表所在的Region Ser转载 2014-01-16 15:14:56 · 2548 阅读 · 0 评论 -
HBase中的RIT机制(Region in Transcation)
每天到公司第一件事,就是检查测试环境和线上环境的几个hbase集群运行状态。由于测试环境用的几台机器都是虚拟机,因此不可避免的很容易出现regionserver宕机的情况。每次对于宕机的regionserver重启后的一段时间内,部门里的其他一些需要调用hbase的开发人员就开始抱怨,hbase 客户端连接错误 超时等等各种抱怨,其实也是因为regionserver 启动后,本身会进行一次 RIT原创 2014-01-16 15:58:10 · 8342 阅读 · 2 评论 -
HBase的startkey和endkey疑惑
关于hbase 的region里面 出现空的startkey 和 endkey的情况。 hbase的官方文档中给出了相应的解释说明: http://hbase.apache.org/book.html#arch.catalogNotes on HRegionInfo: the empty key is used to denote table start and table end.原创 2014-03-31 16:29:16 · 9425 阅读 · 1 评论 -
hbase 系统 hbase-site.xml 配置说明
hbase.rpc.engine org.apache.hadoop.hbase.ipc.WritableRpcEngine hbase.hregion.max.filesize 10737418240 hbase.rootdir hdfs://hadoop01:8020/apps/原创 2015-01-20 17:28:44 · 7088 阅读 · 0 评论