hbase
王诗龄
这个作者很懒,什么都没留下…
展开
-
hbase 布隆过滤器
布隆过滤器: 1.原理? 数据块索引提供了一个有效的方法,在访问一个特定的行时用来查找应该读取的HFile的数据块。但是它的效用是有限的。HFile数据块的默认大小是64KB,这个大小不能调整太多。 如果你要查找一个短行,只在整个数据块的起始行键上建立索引无法给你细粒度的索引信息。例如,如果你的行占用100字节存储空间,一个64KB的数据块包含(64 * 1024)/100 = 6...原创 2014-12-23 10:48:06 · 331 阅读 · 0 评论 -
HBase性能优化方法总结(四):数据计算
HBase性能优化方法总结(四):数据计算本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第四部分内容:数据计算相关的优化方法。4. 数据计算4.1 服务端计算Coprocessor运行于HBase RegionServer服务端,各个Regions保...原创 2014-12-12 10:57:14 · 123 阅读 · 0 评论 -
HBase性能优化方法总结(三):读表操作
HBase性能优化方法总结(三):读表操作本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第三部分内容:读表操作相关的优化方法。3. 读表操作3.1 多HTable并发读创建多个HTable客户端用于读操作,提高读数据的吞吐量,一个例子:复制代码...原创 2014-12-12 10:56:34 · 86 阅读 · 0 评论 -
HBase性能优化方法总结(二):写表操作
HBase性能优化方法总结(二):写表操作本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第二部分内容:写表操作相关的优化方法。2. 写表操作2.1 多HTable并发写创建多个HTable客户端用于写操作,提高写数据的吞吐量,一个例子:复制代码...原创 2014-12-12 10:55:40 · 101 阅读 · 0 评论 -
hbase 表设计
HBase性能优化方法总结(一):表的设计本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第一部分内容:表的设计相关的优化方法。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region...原创 2014-12-12 10:54:30 · 104 阅读 · 0 评论 -
hbase 快照
Apache HBase快照介绍分享到: 6本文由 ImportNew - 陈 晨 翻译自 Cloudera。欢迎加入翻译小组。转载请参见文章末尾的要求。CDH是Cloudera的完全开源分布式Apache Hadoop及相关项目(包括Apache HBase)。CDH的当前版本(4.2)引入的一个HBase新特性最近加入到了主干中,允许用户对指定表进行快照。在C...原创 2014-12-10 15:52:26 · 168 阅读 · 0 评论 -
hbase 日常维护
一,基本命令: 建表:create 'testtable','coulmn1','coulmn2' 也可以建表时加coulmn的属性如:create 'testtable',{NAME => 'coulmn1', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS => '10', COMPRESSION...原创 2014-12-09 10:46:48 · 123 阅读 · 0 评论 -
HBase Rowkey的散列与预分区设计
HBase中,表会被划分为1...n个Region,被托管在RegionServer中。Region二个重要的属性:StartKey与EndKey表示这个Region维护的rowKey范围,当我们要读/写数据时,如果rowKey落在某个start-end key范围内,那么就会定位到目标region并且读/写到相关的数据。简单地说,有那么一点点类似人群划分,1-15岁为小朋友,16-39岁为年轻人...原创 2015-03-03 14:51:59 · 93 阅读 · 0 评论 -
hbase bluk loading
使用HBASE的BULK LOAD一、环境的配置1.首先配置$HADOOP_HOME下的conf/hadoop-env.sh文件,修改其中的HADOOP_CLASSPATH为如下export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/hadoop/hbase-0.90.3.jar:/hadoop/hbase/hbase-0.90.3-t...原创 2015-03-03 11:29:59 · 165 阅读 · 0 评论 -
hbase scan问题
1.通过scan取完数据后,记得要关闭ResultScanner,否则RegionServer可能会出现问题 2.scan时指定需要的Column Family,可以减少网络传输数据量,否则默认scan操作会返回整行所有Column Family的数据。 3.通过调用HTable.setScannerCaching(int scannerCaching)可以设置HBas...原创 2014-07-25 10:52:03 · 391 阅读 · 0 评论 -
hive + hbase
环境配置:hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node)hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/node)hive-0.10.0-cdh4.3.0 一、查询性能比较: query1: select count(1) from on...原创 2015-01-04 10:42:11 · 162 阅读 · 0 评论 -
hbase 自定义filter
base自带的filter已经很多了,按照RK,CF,CQ过滤的都有我最常用的PrefixFilter,按照rk前缀RowFilter,按照rk比较ColumnPrefixFilter,按照cq前缀QualifierFilter,按照cq比较 hbase还有一堆WritableByteArrayComparable,可以满足各种比较比如Reg...原创 2014-12-17 17:22:10 · 151 阅读 · 0 评论