- 博客(8)
- 收藏
- 关注
原创 hbase 布隆过滤器
布隆过滤器: 1.原理? 数据块索引提供了一个有效的方法,在访问一个特定的行时用来查找应该读取的HFile的数据块。但是它的效用是有限的。HFile数据块的默认大小是64KB,这个大小不能调整太多。 如果你要查找一个短行,只在整个数据块的起始行键上建立索引无法给你细粒度的索引信息。例如,如果你的行占用100字节存储空间,一个64KB的数据块包含(64 * 1024)/100 = 6...
2014-12-23 10:48:06 330
原创 hbase 自定义filter
base自带的filter已经很多了,按照RK,CF,CQ过滤的都有 我最常用的PrefixFilter,按照rk前缀 RowFilter,按照rk比较 ColumnPrefixFilter,按照cq前缀 QualifierFilter,按照cq比较 hbase还有一堆WritableByteArrayComparable,可以满足各种比较 比如Reg...
2014-12-17 17:22:10 149
原创 HBase性能优化方法总结(四):数据计算
HBase性能优化方法总结(四):数据计算 本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。 下面是本文总结的第四部分内容:数据计算相关的优化方法。 4. 数据计算 4.1 服务端计算 Coprocessor运行于HBase RegionServer服务端,各个Regions保...
2014-12-12 10:57:14 121
原创 HBase性能优化方法总结(三):读表操作
HBase性能优化方法总结(三):读表操作 本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。 下面是本文总结的第三部分内容:读表操作相关的优化方法。 3. 读表操作 3.1 多HTable并发读 创建多个HTable客户端用于读操作,提高读数据的吞吐量,一个例子: 复制代码 ...
2014-12-12 10:56:34 81
原创 HBase性能优化方法总结(二):写表操作
HBase性能优化方法总结(二):写表操作 本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。 下面是本文总结的第二部分内容:写表操作相关的优化方法。 2. 写表操作 2.1 多HTable并发写 创建多个HTable客户端用于写操作,提高写数据的吞吐量,一个例子: 复制代码 ...
2014-12-12 10:55:40 99
原创 hbase 表设计
HBase性能优化方法总结(一):表的设计 本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。 下面是本文总结的第一部分内容:表的设计相关的优化方法。 1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region...
2014-12-12 10:54:30 103
原创 hbase 快照
Apache HBase快照介绍 分享到: 6 本文由 ImportNew - 陈 晨 翻译自 Cloudera。欢迎加入翻译小组。转载请参见文章末尾的要求。 CDH是Cloudera的完全开源分布式Apache Hadoop及相关项目(包括Apache HBase)。CDH的当前版本(4.2)引入的一个HBase新特性最近加入到了主干中,允许用户对指定表进行快照。 在C...
2014-12-10 15:52:26 166
原创 hbase 日常维护
一,基本命令: 建表:create 'testtable','coulmn1','coulmn2' 也可以建表时加coulmn的属性如:create 'testtable',{NAME => 'coulmn1', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS => '10', COMPRESSION...
2014-12-09 10:46:48 120
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人