hbase
文章平均质量分 62
袁先生的博客
智来科技(大连)有限公司
展开
-
hadoop Unrecognized option: -jvm
情景描述: 在VM虚拟机上,按照hadoop手册,搭建Single Node. 启动hadoop时 #./start-all.sh 报错: ####################################################### localhost: Unrecognized op原创 2012-05-16 00:07:17 · 1525 阅读 · 0 评论 -
HBase scan的客户端分析
HBase中rowkey是索引,任何对全表的扫描或是统计都需要用到scan接口。本文主要探讨的是客户端是如何通过scan来扫描hbase的table的。主要关注几个问题:1.每一个Table可能不止一个region,分布在不同的regionserver上。客户端需要找到每个region的位置并与之通信;2.Hbase是以append形式把数据写进去的,无论是写还是删除只原创 2012-07-19 09:26:01 · 1124 阅读 · 0 评论 -
基于Hbase存储的分布式消息(IM)系统-JABase
前段日子看了在highscalability.com上一篇介绍facebook消息系统的文章,一夜之后被无数个网站无数次的转载,现如今facebook的任何一个话题都会引起很多人的关注,但我对只对这文章里面没有说明的部分比较感兴趣,系统里是怎么获得即时消息的?PHP监听器?开启很多个监听器服务?推模式?拉模式?跟Twitter一样采用消息中间件?对此有了些疑问,期待日后有人能给出明确解答。原创 2012-07-19 14:00:35 · 1170 阅读 · 0 评论 -
HBase入门篇2
本篇文章讲述用HBase Shell命令 和 HBase Java API 对HBase 服务器 进行操作。在此之前需要对HBase的总体上有个大概的了解。比如说HBase服务器内部由哪些主要部件构成?HBase的内部工作原理是什么?我想学习任何一项知识、技术的态度不能只是知道如何使用,对产品的内部构建一点都不去关心,那样出了问题,很难让你很快的找到答案,甚至我们希望最后能对该项技术的领悟出自己的原创 2012-07-19 14:02:21 · 660 阅读 · 0 评论 -
HBase入门篇3
前两篇文件分别说到了我在学习HBase中的一些入门经验,而《HBase 入门3》这篇文章浅显的从几个方面谈谈HBase的一些优化技巧,只能作为我学习笔记的一部分,因为学多了怕忘,留给自己以后看看。1 修改 linux 系统参数 Linux系统最大可打开文件数一般默认的参数值是1024,如果你不进行修改并发量上来的时候会出现“Too Many Open Files”的错误,导致整个H原创 2012-07-19 14:02:50 · 466 阅读 · 0 评论 -
HBase入门篇4
前几篇文章讲述了 HBase的安装、Hbase命令和API的使用、HBase简单的优化技巧,《HBase入门篇4》这篇文章是讲述把HBase的数据放在HDFS上的点滴过程。目前对与HBase我是一个绝对的新手,如果在文章中有任何我理解有错误的地方请各位指正,谢谢。Ok,进行正题 ……… 在HBase中创建的一张表可以分布在多个Hregion,也就说一张表可以被拆分成多块,每一块称我原创 2012-07-19 14:03:53 · 581 阅读 · 0 评论 -
hbase中region的规划与硬盘配置分析
Hbase在逻辑上的存储最小单位是Region,物理上来说事HFile。每个Region由多个HFile组成。那么,是否有一个推荐值,确定每台regionserver上运行多少个region,,每个region的size多大是最合适的呢? 看到《Hbase权威指南》中有一段话写道: It is noted in the Bigtablepaper that the ai原创 2012-07-19 14:42:32 · 1209 阅读 · 0 评论 -
hbase二级索引
二级索引与索引Join是Online业务系统要求存储引擎提供的基本特性。RDBMS支持得比较好,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。这篇文章会以HBase做为对象来探讨如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary index, ITHbase, Facebook和官方Coprocessor方案的介绍。理论目标原创 2012-08-06 09:20:30 · 1340 阅读 · 0 评论 -
HBase性能调优
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer原创 2012-08-15 17:15:36 · 568 阅读 · 0 评论 -
hbase count
1. Enable AggregationClient coprocessorYou have two choices :You can enable aggregation coprocessor on all your tables by adding the following lines tohbase-site.xml : hbase.coproces原创 2012-08-17 17:58:39 · 3177 阅读 · 2 评论 -
hive+hbase整合
一 、简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive与HBase的整合功能的实现是利用两者本身对外原创 2012-07-19 11:57:41 · 740 阅读 · 0 评论 -
hbase 二级索引具体实例
You need to enable indexing in HBase before you can create a secondary index on columns. Edit the file $HBASE_INSTALL_DIR/conf/hbase-site.xml and add the following property to it. hbase.regionserve原创 2012-09-20 14:39:52 · 1488 阅读 · 0 评论 -
hbase入库过程中JVM 新生代大小配置试验
hbase入库过程中,除了hbase-site.xml中的一些常见的配置参数,其实很关键的一个环节是hbase-env.sh中的jvm参数配置。之前修改的一个重要参数就是新生代的大小。 在大规模写入数据的试验中,我们分别将每个Regionserver的新生代内存配置为不同大小(总大小为32GB),入库一段时间后,通过jstat命令查看每台机器的三个运行状态,YGC,FGC,GCT,绘原创 2012-07-19 14:44:21 · 1161 阅读 · 0 评论 -
hbase表结构设计研究(不断更新)
因为一直在做hbase的应用层面的开发,所以体会的比较深的一点是hbase的表结构设计会对系统的性能以及开销上造成很大的区别,本篇文章先按照hbase表中的rowkey、columnfamily、column、timestamp几个方面进行一些分析。最后结合分析如何设计一种适合应用的高效表结构。 1、表的属性 (1)最大版本数:通常是3,如果对于更新比较频繁的应用完全可原创 2012-07-19 14:40:58 · 1145 阅读 · 0 评论 -
Java操作Hbase进行建表、删表以及对数据进行增删改查,条件查询
1、搭建环境 新建JAVA项目,添加的包有: 有关Hadoop的hadoop-core-0.20.204.0.jar 有关Hbase的hbase-0.90.4.jar、hbase-0.90.4-tests.jar以及Hbase资源包中lib目录下的所有jar包 2、主要程序 Java代码 package com.wujintao.hbas原创 2012-07-10 14:54:08 · 2426 阅读 · 0 评论 -
hbase的查询scan功能注意点(setStartRow, setStopRow)(
hbase的scan查询功能注意项:Scan scan = new Scan();scan.setStartRow(“5193:”);scan.setStopRow(“5194:”);ResultScanner result = table.getScanner(scan);for (Result r : result) { get it......}查找原原创 2012-07-19 11:34:19 · 4780 阅读 · 1 评论 -
HBase入门篇1
HBase是什么? HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作,如右侧的图所示:HBase在产品中还包含了Jetty,在HBase启动时采用嵌入式的方式来启动Jetty,因此可原创 2012-07-19 14:01:25 · 828 阅读 · 0 评论 -
hbase0.94新特性
HBase 0.94 版本最近发布了,距上次的0.92 版本发布又四个月了,下面我们就来看一下这个版本中丰富的功能增强。性能相关读缓存改进: HDFS 将图片和checksum存储在不同的block中的,所以每次我们进行读操作,都需要进行两次磁盘操作(一次读数据文件,一次读checksum所在的文件)。在HBASE-5074 这个提案中,提出了将checksum存到block 缓存中的原创 2012-07-19 14:39:25 · 1265 阅读 · 0 评论 -
hbase修复.META.表与HDFS文件不一致问题
在实际环境中遇到hbase fbck检查报hdfs数据块与META表信息不一致的错误。表现就是数据写入无法进行。 经过检查,发现在.META.表中对应的一些region块的子列少了regioninfo这一列;同时在hdfs的出错region文件夹下查看发现本来该是.regioninfo的文件夹变成了.tmp文件夹。在网上查了些资料,发现是region做分裂的时候失败,导致region原创 2012-07-19 14:41:41 · 1242 阅读 · 0 评论 -
MR操作hbase的一点心得(含hbase表拷贝样例代码)
最近在写基于hbase的MR程序。总结如下: 1、使用TableMapper来读取表 2、写入表的第一种方式是用TableMapReduceUtil.initTableReducerJob的方法,这里既可以在map阶段输出,也能在reduce阶段输出。区别是Reduce的class设置为null或者实际的reduce 以下是一个表copy的例子:[jav原创 2012-07-19 14:44:56 · 1628 阅读 · 0 评论 -
hbase+hadoop运维的一点经验
目前系统上线,不断的有新问题,也不断的在总结一些经验,发在这里,做下mark,同时也为hbase使用者提供一些思路吧。1、单条rowkey下虽然能支持百万列,但是建议不要这么做,因为真正一个rowkey下挂了这么多数据时会在两个地方出现问题,一是查询时单行记录数据量过大,client超时;第二个问题是regionserver做compact的过程有可能被单条rowkey的数据塞满内存造成OOM原创 2012-07-19 14:45:30 · 1474 阅读 · 0 评论 -
hbase shell 简单使用
hing@hing-host:~/hbase-0.90.3/bin$ ./start-hbase.sh starting master, logging to /home/hing/hbase-0.90.3/bin/../logs/hbase-hing-master-hing-host.outhing@hing-host:~/hbase-0.90.3/bin$ ./hbase shell原创 2012-08-03 09:26:24 · 1103 阅读 · 0 评论 -
hbase bulkload
bulkload的方式导入数据是hbase的一项相当好的数据导入工具,特别适合做为新系统的历史数据导入工具!hbase本身也封装了相关的类importtsv,官网有简单的介绍http://hbase.apache.org/bulk-loads.html。 这里我要说明的是如何去快速定制一些适合自己应用的bulkload。 我们一般需要运行的数据有几种格式,txt的用的最原创 2012-07-19 14:40:16 · 823 阅读 · 0 评论 -
hbase shell脚本
下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'查看记录原创 2013-01-26 11:13:00 · 801 阅读 · 0 评论