hbase
文章平均质量分 66
jingling_zy
这个作者很懒,什么都没留下…
展开
-
hbase 使用LZO笔记
之前我们发现数据录入到hbase中,数据占用的空间变大,所以我们考虑使用压缩来降低,下面是安装使用lzo的过程,在这记录一下备忘。 一、hbase添加LZO 注意:root用户安装,否则安装会出现错误 1、首先要让系统支持lzo动态库,安装lzo-2.00以上版本:http://www.oberhumer.com/opensource/lzo/download/ 2、解压 tar -z原创 2012-02-11 20:56:49 · 6224 阅读 · 0 评论 -
Hbase集群间数据迁移方法总结
呵呵,今天花了一天的时间查资料做测试,略微的总结了一下hbase数据迁移的方法。 一、需要在hbase集群停掉的情况下迁移 步骤:(1)执行hadoop distcp -f filelist "hdfs://new cluster ip:9000/hbasetest" (2)在new cluster执行./hbase org.jruby.Main add_tabl原创 2012-05-10 17:59:35 · 22117 阅读 · 2 评论 -
Hadoop集群间distcp方案探讨
转载:http://www.linezing.com/blog/?p=452 在日常的工作过程中,我们经常会碰到在不同的Hadoop集群间来回copy数据的需求。这些不同的集群,他们的Hadoop版本可能不同,不同机房的acl也可能不通,给我们的distcp带来了很多困难。这里整理曾经遇到的各种需求,供各位看官参考: 1.机房影响 这里假设有两个Hadoop集群,a和b,版本一致,但位于转载 2012-05-10 19:03:24 · 2037 阅读 · 0 评论 -
hbase的bulk load一个小改造(续)
之前写了一篇文章hbase的bulk load一个小改造,最近在这个改造的基础上做了一些性能测试,呵呵,在这期间发现了新的问题,对此也有了一些新的认识,在这里分享一下,欢迎大家拍砖。 之前提到hbase的bulk load是一个mapreduce任务,其中reduce的数目是表的region数目来决定的,这一点一直没有理解hbase为什么要这么做。呵呵,前两天对一个有200多个region的表进原创 2012-04-15 11:12:21 · 3011 阅读 · 0 评论 -
hbase关闭cache的配置
关闭hbase的cache: hbase的配置项中 hfile.block.cache.size 0.2 Percentage of maximum heap (-Xmx setting) to allocate to block cache used by HFile/StoreFile. Defa原创 2012-04-01 16:26:13 · 4411 阅读 · 1 评论 -
hbase的bulk load一个小改造
研读了三天bulk load的代码,呵呵,貌似时间有点长,我自己都觉得不好意思,总结了一下,主要是自己对map reduce的工作流程不太熟悉造成的。这个过程中,不论是自己找资料,还是向同事请教,对map reduce有了进一步的理解,呵呵,好了,继续讲讲bulk load吧! 了解bulk load的朋友都知道,bulk load其实就是一个map reduce的job,我们在实际使用中发现,原创 2012-03-07 21:01:41 · 3271 阅读 · 6 评论 -
Cannot open channel to 1 at election address(待续)
这段时间搭了一个7台机器的hbase集群,启动hbase的时候,出现了以下异常: 2011-05-16 15:07:21,171 - WARN [WorkerSender Thread:QuorumCnxManager@384] - Cannot open channel to 1 at election address /192.168.0.103:3888 java.net.Co原创 2012-02-27 11:53:23 · 21917 阅读 · 4 评论 -
随笔
昨天很有幸参加了淘宝的技术沙龙,在交流会上,认识了很多技术牛人,所见所闻都让人热血沸腾…… 首先听到的是AdMaster公司的@爱的马斯特的有关流式计算的分享,之前对流式计算也稍稍了解了一些,但是了解不多,在这里我了解到他们使用storm实现了日志分析、ETL的功能,用Redis来做多个数据集的关联计算、join计算,实现了cookie,使用hbase做存储,离线分析使用MongoDB(这个主要原创 2012-02-26 23:17:18 · 1247 阅读 · 0 评论 -
bulk load关于分隔符的问题
在查看bulk load的源码了解到,其默认的分隔符为\t,也就是说如果数据是tab键分割的,就不需要指定分隔符了,如果需要换成其它分割符,在执行时加上-Dimporttsv.separator=",",则变成了以","分割。 前两天,无意间使用bulk load导入数据,导入的数据是以“\t”分割的,我在命令中指定了-Dimporttsv.separator="\t",怪事就出现了,报出异常:原创 2012-02-15 14:19:36 · 4397 阅读 · 0 评论 -
HBase bulkload的一个bug定位
在HBase bulkload过程中,如果rowkey和version都一致,无法取得最新导入的数据。 问题定位: 在HBase里,如果两个HFile中都有相同rowkey和version的数据,是靠HFile的fileinfo里的MAX_SEQ_ID_KEY来判断哪个文件是最新,MAX_SEQ_ID_KEY 越大的文件越新。 1.通过flush写的HFile文件有往fileinf转载 2012-02-14 15:41:43 · 1502 阅读 · 0 评论 -
bulkload出现了KeeperException问题
昨天使用hbase的bulk load的时候,出现了以下异常: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/zookeeper/KeeperException at java.lang.Class.getDeclaredMethods0(Native Method)原创 2012-02-11 19:24:34 · 3031 阅读 · 0 评论 -
HBase 压缩算法设置及修改
Compression就是在用CPU换IO吞吐量/磁盘空间,如果没有什么特殊原因推荐针对Column Family设置compression,下面主要有三种算法: GZIP, LZO, Snappy,作者推荐使用Snappy,因为它有较好的Encoding/Decoding速度和可以接受的压缩率。 HBase comes with support for a number of compre转载 2012-02-14 14:20:37 · 5720 阅读 · 1 评论 -
hbase0.90.4安装总结
前段时间安装了hbase,这里总结一下备忘。 安装前的准备工作: 1、保证将纳入集群中各个机器能够ssh无密码访问; 2、将各个机器的时间统一,一面集群启动后出现不可预料的问题 1、通过命令tar xvf hbase-0.90.4.tar.gz解压到当前文件夹 2、 修改HBase的配置文件: 编辑所有机器上的hbase安装目录conf目录下的hbase-site.xml、hbas原创 2012-02-11 20:42:07 · 2860 阅读 · 0 评论 -
HBase在淘宝主搜索的Dump中的性能调优
目前HBase已经运用于淘宝主搜索的全量和增量的数据存储,有效的减低的数据库的压力,增强了业务扩展的能力。Dump系统的特点是要求在短时间内处理大量数据,对延时要求高。在实施这个项目过程中,我们积累了一些优化的实践,抛砖引玉,供大家参考。 环境:Hadoop CDH3U4 + HBase 0.92.1 1、 尽可能用LZO 数据使用LZO,不仅可以节省存储空间尤其是可以提高传输的效率,因为转载 2012-08-04 09:50:51 · 900 阅读 · 0 评论