hbase
文章平均质量分 65
驰驰的老爸
IT民工一枚,长期耕耘于JAVA, JS,LINUX一线,现在努力提高机器学习方面的技能。
展开
-
hbase shell 常用命令
hbase Shell 保存历史命令可以在你自己的Home目录下创建一个.irbrc文件. 在这个文件里加入自定义的命令。有一个有用的命令就是记录命令历史,这样你就可以把你的命令保存起来。$ more .irbrcrequire 'irb/ext/save-history'IRB.conf[:SAVE_HISTORY] = 100IRB.conf[:HISTORY_FI原创 2015-06-17 09:00:03 · 2623 阅读 · 0 评论 -
使用ganglia监控hadoop,hbase
gagnlia 安装笔记:查看linux版本[root@XAYQ-Test2 bin]# lsb_release -aLSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-am原创 2014-08-05 16:57:35 · 996 阅读 · 0 评论 -
hbase修复.META.表与HDFS文件不一致问题
在实际环境中遇到hbase fbck检查报hdfs数据块与META表信息不一致的错误。表现就是数据写入无法进行。 经过检查,发现在.META.表中对应的一些region块的子列少了regioninfo这一列;同时在hdfs的出错region文件夹下查看发现本来该是.regioninfo的文件夹变成了.tmp文件夹。在网上查了些资料,发现是region做分裂的时候失败,导致regi转载 2014-08-02 11:11:41 · 2731 阅读 · 0 评论 -
hbase使用、运维、改进(不断更新)
刚刚看了google jeff dean 在新的一年里发表的演讲,讲到各种系统配合使用完成海量数据处理任务。深有感触:http://t.cn/zYE89gn 。2013年,依然会专注hbase研究,并以此为基础扩展,对hbase衍生的一些特性和产品进行深入研究,例如replication、phoenix。从传统的离线计算(hadoop、hive),到实时流式计算系统(storm、s4),创新应用性转载 2014-08-02 11:10:45 · 934 阅读 · 0 评论 -
HBase工程师线上工作经验总结----HBase常见问题及分析
阅读本文可以带着下面问题:1.HBase遇到问题,可以从几方面解决问题?2.HBase个别请求为什么很慢?你认为是什么原因?3.客户端读写请求为什么大量出错?该从哪方面来分析?4.大量服务端exception,一般原因是什么?5.系统越来越慢的原因是什么?6.Hbase数据写进去,为什么会没有了,可能的原因是什么?7. regionserver发生abort,遇到最多是转载 2014-07-26 18:34:11 · 1350 阅读 · 0 评论 -
(一) hbase+solr概念和环境搭建
(一) hbase+solr概念和环境搭建概念:Hadoop实现了一个分布式文件系统(HadoopDistributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽原创 2014-07-24 12:13:36 · 14213 阅读 · 19 评论 -
使用sqoop1导出mysql数据到hbase中
安装配置cdh5.03版sqoop2-1.99.3导入数据1.下载sqoop2:http://www.cloudera.com/content/support/en/downloads/cdh/cdh-5-0-3.html2.无法启动配置server/conf下catalina.properties文件,把所有hadoop的共享jar包配置到sqoop环境变量中,可以参考官方文档搞定。原创 2014-07-18 12:54:56 · 3323 阅读 · 0 评论 -
HBase Shell输入命令无法删除问题解决技巧
一、引言: HBase shell使用过程中,使用CRT客户端,命令输入后无法删除一直困绕着我,今天终于受不了,几番度娘,谷哥之后,终于有了解决方法,特共享给大家。二、操作步骤secureCRT中,点击【选项】【回话选项】【终端】【仿真】,右边的终端选择linux英文版本请对应选择输入:三、删除操作 执行删除操作时,需要使用组合键:Ctr转载 2014-07-18 09:08:20 · 9686 阅读 · 1 评论 -
hbase常去学习网站
HBase 官方文档 0.97http://abloz.com/hbase/book.html原创 2013-12-31 21:31:42 · 1445 阅读 · 0 评论 -
HBase在数据统计应用中的使用心得
由于项目开发的需要,使用HBase作为数据统计应用的存储系统,这里是一些经验总结以及对于使用过程中存在问题的解决思路。1. 数据统计的需求互联网上对于数据的统计,一个重要的应用就是对网站站点数据的统计,例如CNZZ站长统计、百度统计、Google Analytics、量子恒道统计等等。网站站点统计工具无外乎有以下一些功能:1)网站流量统计:包括PV、UV、IP等指标,这些统计指标可转载 2014-02-20 15:54:59 · 1151 阅读 · 0 评论 -
HBase Java客户端编程
本文以HBase 0.90.2为例,介绍如何在Windows系统,Eclipse IDE集成环境下,使用Java语言,进行HBase客户端编程,包含建立表、删除表、插入记录、删除记录、各种方式下的查询操作等。1. 准备工作1、下载后安装jdk包(这里使用的是jdk-6u10-rc2-bin-b32-windows-i586-p-12_sep_2008);2、下载eclipse,解压转载 2014-02-20 15:57:15 · 994 阅读 · 0 评论 -
HBase性能优化方法总结
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个regio转载 2014-02-20 15:55:28 · 938 阅读 · 0 评论 -
HBase解决Region Server Compact过程占用大量网络出口带宽的问题
HBase 0.92版本之后,Region Server的Compact过程根据待合并的文件大小分为small compaction和large compaction两种,由此可能导致在集群写入量大的时候Compact占用过多的网络出口带宽。本文将详细描述集群使用过程中遇到这一问题的排查过程及其解决方法。1. 发现问题HBase集群(版本为0.94.0)运行过程中,发现5台Region S转载 2014-02-20 15:51:57 · 1299 阅读 · 0 评论 -
HBase集群出现NotServingRegionException问题的排查及解决方法
HBase集群在读写过程中,可能由于Region Split或Region Blance等导致Region的短暂下线,此时客户端与HBase集群进行RPC操作时会抛出NotServingRegionException异常,从而导致读写操作失败。这里根据实际项目经验,详细描述这一问题的发现及排查解决过程。1. 发现问题在对HBase集群进行压力测试过程中发现,当实际写入HBase和从HBas转载 2014-02-20 15:50:41 · 1813 阅读 · 0 评论 -
HBase如何合理设置客户端Write Buffer
HBase客户端API提供了Write Buffer的方式,即批量提交一批Put对象到HBase服务端。本文将结合HBase相关源码,对其进行深入介绍,分析如何在实际项目中合理设置和使用它。什么时候需要Write Buffer?默认情况下,一次Put操作即要与Region Server执行一次RPC操作,其执行过程可以被拆分为以下三个部分:T1:RTT(Round-Trip Tim转载 2014-02-20 15:56:18 · 4709 阅读 · 0 评论 -
hbase性能测试
hbase性能测试针对现有系统分别插入1w,10w,100w条数据的入库测试结果:入库条数: 1w(3台), 10w(3台), 100w(4台)RunTime(ms), 5509.0 15385.0 105240.0 感觉速度不是很快,需要去优化一些参数,下面是操作步骤。 1.下载,进去https:/原创 2014-07-30 14:04:04 · 12020 阅读 · 0 评论 -
使用Ganglia监控Hadoop,hbase
使用Ganglia监控Hadoop,hbaseGanglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。访问http://172.22.14.6/ganglia/,查看被监控的指标图Metric 下拉菜单可以看到被监控的指标 ganglia 安装笔记:查看linux版本[root@XAYQ-Test2 bin]# lsb_release原创 2014-07-30 14:12:23 · 3990 阅读 · 0 评论 -
启动hbase .meta 启动不成功
抛如下异常:2015-01-03 13:41:15,712 WARN [RS_LOG_REPLAY_OPS-fetch-hadoop-slave1:60020-0] wal.HLogSplitter: Could not open hdfs://fetch-hadoop-master:9100/hbase/WALs/fetch-hadoop-slave3.com,60020,14175042原创 2015-01-03 13:53:28 · 2036 阅读 · 0 评论 -
Hbase的regionServer无法启动报ClockOutOfSyncException解决方法
2015-01-02 23:00:37,377 FATAL [regionserver60020] regionserver.HRegionServer: Master rejected startup because clock is out of sync同步所有节点的时间,或者使用网络时钟ntpsalt '*' cmd.run "date -s '2015-01-03 13:37原创 2015-01-03 13:40:30 · 1242 阅读 · 0 评论 -
NotServingRegionException: Region is not online 错误总结
问题导读:1.遇到Region is not online可能的原因是什么?2.使用hbase你经常遇到的问题是什么?遇到了下面错误:14/05/16 03:59:30 INFO master.MasterFileSystem: Log folder hdfs://master:8020/hbase/WALs/slave1,60020,1400183951986 bel转载 2014-09-02 15:42:33 · 16835 阅读 · 2 评论 -
HBase中的Client如何路由到正确的RegionServer
在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,删除,查询数据都需要先找到相应的RegionServer。什么叫相应的RegionServer?就是管理你要操作的那个Region的RegionServer。Client本身并不知道哪个RegionServer管理哪个Region,那么它是如何找到相应的RegionServer的?本文就是在研究源码的基础上揭转载 2014-08-14 21:34:56 · 784 阅读 · 0 评论 -
hbase中查看hlog文件内容
hbase中除了有查看hfile文件的命令,也提供也查看hlog文件的命令:在hbase的根目录下有个.logs目录,里面就是hlog文件,一台RegionServer机器对应一个文件。老的hlog文件会被移到.oldlogs目录:[[email protected] ~/dev/baoniu]$ hadoop fs -ls /hbase-0.90/转载 2014-08-14 20:57:40 · 7156 阅读 · 0 评论 -
用jstack发现的一例hbase region server线程死锁
最近在升级hadoop集群的过程中,hbase偶尔出现无法读写的情况,看region server进程并没有挂掉,于是用jstack看下是什么情况:Found one Java-level deadlock:============================='IPC转载 2014-08-14 20:58:57 · 2288 阅读 · 0 评论 -
Hadoop 2.2 & HBase 0.96 Maven 依赖总结
由于Hbase 0.94对Hadoop 2.x的支持不是非常好,故直接添加Hbase 0.94的jar依赖可能会导致问题。 但是直接添加Hbase0.96的依赖,由于官方并没有发布Hbase 0.96的jar包,通过maven编译项目的时候会出现找不到jar包导致编译失败。 通过网上的资料,得知Hbase 0.94后版本,直接添加Hbase-Client的依赖,通过查询转载 2014-09-05 17:18:57 · 13180 阅读 · 1 评论 -
hbase关于bloom filter使用
主要来自:http://zjushch.iteye.com/blog/1530143 1.Bloomfilter的原理? 可参考 http://hi.baidu.com/yizhizaitaobi/blog/item/cc1290a0a0cd69974610646f.html 2.Bloomfilter在HBase中的作用? HBase利用Bloomfilter来提高随机读转载 2014-08-06 17:33:25 · 2204 阅读 · 0 评论 -
hbase导入数据总结:
目前有两种方式导入:1.使用sqoop工具导入。2.通过写hbase java api导入。总结:hbase的入库性能还行,查询效率高。 目前咱们的数据量很难遇到极端场景。1.使用sqoop 把cpp数据导入hbasesqoop思义sql to hadoop。sqoop特性:支持多种导入方式,包括指定列导入,指定格式导入,支持增量导入(有更新才导入)等等。原创 2014-08-05 16:37:28 · 3769 阅读 · 1 评论 -
HBase Block Cache实现机制分析
本文结合HBase 0.94.1版本源码,对HBase的Block Cache实现机制进行分析,总结学习其Cache设计的核心思想。1. 概述HBase上Regionserver的内存分为两个部分,一部分作为Memstore,主要用来写;另外一部分作为BlockCache,主要用于读。写请求会先写入Memstore,Regionserver会给每个region提供一个Memstor转载 2014-02-20 15:53:11 · 799 阅读 · 0 评论 -
HBase一次慢查询请求的问题排查与解决过程
以下是我们对HBase集群一次慢查询请求问题的排查解决过程。1. 发现问题项目中有一张HBase表,每天凌晨以后会集中批量导入一批数据,导入数据量很大,在千万到亿的量级,然后白天为用户提供查询服务。某天突然发现, 该表按照各个region(共计256个)分别仅顺序scan少数几条数据时,部分region的查询请求的响应时间很慢,长达10秒甚至几十秒不等。2. 排查问题首先,通过查看转载 2014-02-20 15:46:48 · 3070 阅读 · 0 评论 -
HBase在淘宝主搜索的Dump中的性能调优
目前HBase已经运用于淘宝主搜索的全量和增量的数据存储,有效的减低的数据库的压力,增强了业务扩展的能力。Dump系统的特点是要求在短时间内处理大量数据,对延时要求高。在实施这个项目过程中,我们积累了一些优化的实践,抛砖引玉,供大家参考。环境:Hadoop CDH3U4 + HBase 0.92.11、 尽可能用LZO数据使用LZO,不仅可以节省存储空间尤其是可以提高传输的转载 2014-02-06 22:19:32 · 936 阅读 · 0 评论 -
HBase技术介绍
HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行M转载 2014-01-26 19:33:35 · 823 阅读 · 0 评论 -
HBase Bulkload bug修复及patch提交
第一部分:问题排查。在店铺搜索相关需求的开发自测过程中,碰到了一个问题:bulkload数据的过程时间过长,运行了很久都没有结束,于是查看日志,发现bulkload的程序在不停的重试,信息如下(当天信息未保存,这是刚重现时截的)。这些信息看起来没啥问题,bulkload在往表test_shopinfo里load各个hfile,失败了,但是错误是可恢复的,将会重试,接着又看到转载 2014-01-26 19:50:57 · 2083 阅读 · 0 评论 -
安装HBase 0.94.6-cdh4.5.0
设定HBase的配置文件,由于安装的是cdh版,各版本直接匹配,互相依赖的jar包也都正确,只需要配置下hbase的环境变量和配置文件即可。1.配置hbase-env.sh,添加JAVA_HOME环境变量export JAVA_HOME=/usr/java/default/ 其他暂时不用添加export HBASE_MANAGES_ZK=true2.修改hbase-site.x原创 2014-01-06 17:23:29 · 3853 阅读 · 0 评论 -
HBase 系统架构
HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的,多版本的,面向列的存储模型。它存储的是松散型数据。HBase特性:1 高可靠性2 高效性3 面向列4 可伸缩5 可在廉价PC Server搭建大规模结构化存储集群HBase是Goog转载 2013-06-23 09:08:25 · 1085 阅读 · 0 评论 -
HBase-0.90.4集群安装配置
HBase是Hadoop数据库,能够实现随机、实时读写你的Big Data,它是Google的Bigtable的开源实现,可以参考Bigtable的论文Bigtable: A Distributed Storage System for Structured。HBase的存储模型可以如下三个词来概括:distributed, versioned, column-oriented。HBase并非转载 2013-06-21 11:31:39 · 1432 阅读 · 0 评论 -
HBase HMaster启动和停止
HMaster(0.90.3) Startup:main方法: new HMasterCommandLine(HMaster.class).doMain(args); //args为startHMasterCommandLine: 用于启动/停止HMaster.doMain: 运行Tool类的run方法. 继承关系:HMasterComman转载 2013-06-23 14:37:33 · 3921 阅读 · 0 评论 -
hbase介绍
阿里集团数据 ---hbase介绍hbase实战:hbase实战——(1.1 nosql介绍)hadoop使用:hadoop使用(一)hadoop使用(二)hadoop使用(三)hadoop使用(四)hadoop使用(五)hadoop使用(六)转载 2013-11-21 10:53:25 · 1365 阅读 · 0 评论 -
HBase集群出现NotServingRegionException问题的排查及解决方法
HBase集群在读写过程中,可能由于Region Split或Region Blance等导致Region的短暂下线,此时客户端与HBase集群进行RPC操作时会抛出NotServingRegionException异常,从而导致读写操作失败。这里根据实际项目经验,详细描述这一问题的发现及排查解决过程。1. 发现问题在对HBase集群进行压力测试过程中发现,当实际写入HBase和从转载 2013-11-20 16:55:53 · 1929 阅读 · 0 评论 -
hadoop 异常记录 ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times
当我把hadoop、hbase安装配置(具体参考这里)好了之后,启动hbase的shell交互模式,输入命令却出现了下面这样的错误:ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times这是为什么呢,Master为什么没有启动起来呢?查看logs目录下的Master日志,发现有以下信转载 2013-11-20 16:50:21 · 1885 阅读 · 0 评论 -
干掉HBase中的僵尸表
今天遇到了一个恶心的问题:在HBase里面drop一个表,再重建,结果出错说这个表已经存在。再删,出错说这个表不存在。在网上找,很多人说是因为.META.表里面残存了僵尸表的信息。但是在hbase shell中scan ".META."之后,没有发现任何问题。后来找到了这篇文章,解决了问题:http://arnon.me/2013/01/killing-hbase-zomb转载 2013-11-20 15:29:07 · 3751 阅读 · 0 评论 -
HBase在淘宝主搜索的Dump中的性能调优
目前HBase已经运用于淘宝主搜索的全量和增量的数据存储,有效的减低的数据库的压力,增强了业务扩展的能力。Dump系统的特点是要求在短时间内处理大量数据,对延时要求高。在实施这个项目过程中,我们积累了一些优化的实践,抛砖引玉,供大家参考。环境:Hadoop CDH3U4 + HBase 0.92.11、 尽可能用LZO数据使用LZO,不仅可以节省存储空间尤其是可以提高传输的效率,因为转载 2013-10-21 22:13:15 · 719 阅读 · 0 评论