云计算(Hadoop/HBase)
Jaya1989
Any
展开
-
【转载】HBase基本概念和hbase shell常用命令用法
1. 简介 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。2. HBase的表结构 HBase以表的原创 2012-04-17 10:59:22 · 47250 阅读 · 1 评论 -
HBase中Region,Store,StoreFile,ColumnFamily的关系
The HRegionServer opens the region and creates a corresponding HRegion object. Whenthe HRegion is opened it sets up a Store instance for each HColumnFamily for every tableas defined by the user be原创 2013-02-17 11:25:22 · 6154 阅读 · 0 评论 -
【转】HBase Log splitting
通常有两种情况日志文件需要进行replay:当集群启动时,或者当服务器出错时。当master启动—(备份master转正也包括在内)—它会检查HBase在文件系统上的根目录下的.logs文件是否还有一些文件,目前没有安排相应的region server。日志文件名称不仅包含了服务器名称,而且还包含了该服务器对应的启动码。该数字在region server每次重启后都会被重置,这样master就能用原创 2013-01-28 10:30:44 · 6439 阅读 · 0 评论 -
【转载】HBase系统架构
HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的,多版本的,面向列的存储模型。它存储的是松散型数据。HBase特性:1 高可靠性2 高效性3 面向列4 可伸缩5 可在廉价PC Server搭建大规模结构化存储集群HBase是Google BigTable的开源原创 2012-09-04 23:01:00 · 3661 阅读 · 0 评论 -
【转载】hbase中compaction流程
当 client 向 hregion 端 put() 数据时, HRegion 会判断当前的 memstore 的大小是否大于参数hbase.hregion.memstore.flush.size 值,如果大于,则执行 flushcache() 操作,将 hregion 上的 memstore 刷新到 store files 文件里。而在 flushcache 时,会先判断当前的 region原创 2012-09-04 22:48:23 · 4555 阅读 · 0 评论 -
【转载】hbase系统架构及数据结构
HBase中的表一般有这样的特点:1 大:一个表可以有上亿行,上百万列2 面向列:面向列(族)的存储和权限控制,列(族)独立检索。3 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。下面一幅图是Hbase在Hadoop Ecosystem中的位置。二、逻辑视图HBase原创 2012-09-04 22:46:47 · 4083 阅读 · 0 评论 -
【转载】Hadoop FS Shell命令大全
调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。一个HDFS文件或目原创 2012-04-23 14:20:57 · 3196 阅读 · 0 评论 -
【转载】HBase性能优化方法总结(4):读表操作
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第三部分内容:读表操作相关的优化方法。3. 读表操作3.1 多HTable并发读创建多个HTable客户端用于读操作,提高读数据的吞吐量,一个例子:static final Configuration conf = H原创 2012-04-17 17:35:26 · 8455 阅读 · 0 评论 -
【转载】HBase性能优化方法总结(3):写表操作
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第二部分内容:写表操作相关的优化方法。2. 写表操作2.1 多HTable并发写创建多个HTable客户端用于写操作,提高写数据的吞吐量,一个例子:static final Configuration conf = H原创 2012-04-17 17:34:02 · 9086 阅读 · 0 评论 -
【转载】HBase Coprocessor的分析
hbase Coprocessor是很多人对hbase-0.92的重大期待之一。它让离线分析和在线应用很好地结合在了一起,另外也极大地拓展了hbase的应用丰富性,不再是简单的k-v类应用。hbase coprocessor的设计来源于hbase-2000和hbase-2001两个issue。那么几年过去了,hbase coprocessor究竟发展到什么程度,可以将它们用于哪些地方呢?下文主要内原创 2012-04-17 17:39:15 · 2916 阅读 · 0 评论 -
【转载】HBase性能优化方法总结(1):配置优化
配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的regions重新balance,让其他存活的RegionServer接管.调优:原创 2012-04-17 16:13:04 · 3356 阅读 · 0 评论 -
【转载】HBase性能优化方法总结(2):表的设计
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第一部分内容:表的设计相关的优化方法。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个re原创 2012-04-17 17:32:22 · 6119 阅读 · 0 评论 -
Hadoop SafeModeException: xxxxxxx. Name node is in safe mode解决办法
如上图所示,在copy文件的时候,提示“Name node is in safe mode”,这表示Hadoop的NameNode正处于安全模式,解除的办法是,执行命令:hadoop dfsadmin -safemode leave附dfsadmin命令参数解释:hadoop dfsadmin -safemode value参数value的说明如下:enter - 进入原创 2012-04-23 18:10:53 · 4048 阅读 · 0 评论 -
HBase强制删除一个表
情景:由于内网测试环境hbase并没有安装“SNAPPY”压缩,而建表时执行了alter 'TrojanInfo', {NAME => 'i', COMPRESSION => 'SNAPPY'}强制删除表: 1、强制删除该表在hdfs上的所有文件(路径根据实际情况而定):./hadoop fs -rmr /hbase/TrojanInfo 2、删除该表在HBase系原创 2013-03-01 13:42:25 · 51972 阅读 · 1 评论