hbase
三劫散仙
唯有学习,可以解忧
展开
-
hbase数据备份策略
Hbase的数据备份策略有:(1)Distcp(2)CopyTable(3)Export/Import(4)Replication(5)Snapshot下面介绍这几种方式:(一)Distcp(离线备份)直接备份HDFS数据,备份前需要disable表,在备份完成之前 服务不可用对在线服务类业务不友好(二)CopyTable(热原创 2017-03-29 20:16:29 · 1051 阅读 · 0 评论 -
Hbase设置Snappy压缩测试
[size=medium]在DT大数据时代,海量数据的存储和分析是一个巨大的挑战,给我们的hadoop或者hbase集群添加数据压缩的能力,是必不可少的,通过压缩我们不但能节约磁盘空间,而且也能节省集群间网络带宽的损耗,从而间接提高了集群任务的整体执行效率,hadoop已经自带支持一些比较常用的压缩,如gz,bz等,使用hadoop checknative -a命令可以查看你的hadoop支持...2015-12-30 15:31:08 · 449 阅读 · 0 评论 -
Hadoop2.7.1和Hbase0.98添加LZO压缩
[size=medium]1,执行命令安装一些依赖组件yum install -y hadoop-lzo lzo lzo-devel hadoop-lzo-native lzop2, 下载lzo的源码包并解压wget [url]http://www.oberhumer.com/opensource/lzo/download/lzo-2.09.tar.gz[/url]tar...2016-01-04 17:46:33 · 233 阅读 · 0 评论 -
一次bug死磕经历之Hbase堆内存小导致regionserver频繁挂掉
[size=medium]环境如下:Centos6.5Apache Hadoop2.7.1Apache Hbase0.98.12Apache Zookeeper3.4.6JDK1.7Ant1.9.5Maven3.0.5最近在测Hbase的压缩,Hadoop安装了lzo和snappy,插入50条文本数据,每条数据大约4M,来看他们的压缩率对比,然后在测的过...2016-01-05 19:11:41 · 323 阅读 · 0 评论 -
Apache Phoenix安装使用
[size=medium]前提Hadoop+Hbase集群已经能够正常运转,如果不知道如何安装,请查看如下两篇文章:Hadoop安装[url]http://qindongliang.iteye.com/blog/2222145[/url]Hbase安装[url]http://qindongliang.iteye.com/blog/2095733[/url] 框架版本:...2016-01-08 16:59:45 · 183 阅读 · 0 评论 -
Spark SQL+Hive历险记
[size=medium]基础依赖环境Apache Hadoop2.7.1Apache Spark1.6.0Apache Hive1.2.1Apache Hbase0.98.12(1)提前安装好scala的版本,我这里是2.11.7(2)下载spark-1.6.0源码,解压进入根目录编译(3)dev/change-scala-version.sh 2...2016-01-21 11:40:00 · 184 阅读 · 0 评论 -
Spark读取Hbase数据
[size=medium]直接上代码:可以上传jar包,给远程的spark集群,这样能在idea中windows环境上运行代码:[/size][code="java"]package com.tools.hbaseimport org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop...2016-01-21 15:39:15 · 395 阅读 · 0 评论 -
Hbase协处理器介绍
[size=medium](一)Hbase协处理器的前世今生Hbase是仿照Google的BigTable设计的,而其协处理器也是仿照BigTable的协处理实现完成的,具体链接可参考:[url]http://research.google.com/people/jeff/SOCC2010-keynote-slides.pdf[/url](二)什么是Hbase协处理器(...2016-02-18 11:43:04 · 1025 阅读 · 0 评论 -
Hbase+Solr实现二级索引提供高效查询
[size=medium]接着上一篇介绍协处理器的文章[url]http://qindongliang.iteye.com/blog/2277145[/url],本篇我们来实战一个例子,看下如何使用协处理来给Hbase建立二级索引。github地址:[url]https://github.com/qindongliang/hbase-increment-index[/url]...2016-02-18 18:28:12 · 413 阅读 · 0 评论 -
如何监控你的Hadoop+Hbase集群?
[size=medium]前言监控hadoop的框架有不少,如CDH的CM组件和Ambari都可以监控他们自己的hadoop,但是它不能监控apache的hadoop,如果你是使用原生的Apache Hadoop,那么也没关系,原生的Hadoop天生就提供了非常详细的对接Ganglia的jmx接口,里面包含了各个核心组件metrics获取功能,这一点你可以查看hadoop和hbase包...2016-03-21 16:10:03 · 363 阅读 · 0 评论 -
Hadoop+Hbase集群数据迁移问题
[size=medium]数据迁移或备份是任何一个公司都有可能到遇到的一件事,有关hbase数据迁移,官网也给出了几种方案,这里比较推荐使用hadoop distcp这种方式迁移。比较适合大数据量或者跨版本集群之间的数据迁移服务。版本Hadoop2.7.1Hbase0.98.12今天在迁移同版本的hbase数据时,在使用Hadoop distcp时发现下图的一个问题:...2016-03-23 21:00:12 · 233 阅读 · 0 评论 -
如何使用scala+spark读写hbase?
最近工作有点忙,所以文章更新频率低了点,希望大家可以谅解,好了,言归正传,下面进入今天的主题:如何使用scala+spark读写Hbase软件版本如下:scala2.11.8spark2.1.0hbase1.2.0公司有一些实时数据处理的项目,存储用的是hbase,提供实时的检索,当然hbase里面存储的数据模型都是简单的,复杂的多维检索...2017-06-12 19:48:34 · 722 阅读 · 0 评论 -
Spark如何读取Hbase特定查询的数据
最近工作需要使用到Spark操作Hbase,上篇文章已经写了如何使用Spark读写Hbase全量表的数据做处理,但这次有所不同,这次的需求是Scan特定的Hbase的数据然后转换成RDD做后续处理,简单的使用Google查询了一下,发现实现方式还是比较简单的,用的还是Hbase的TableInputFormat相关的API。基础软件版本如下:[code="java"]H...2017-06-29 21:42:45 · 565 阅读 · 0 评论 -
Hbase1.1.2高可用配置Hmaster容错
[size=medium]Hbase的Hmaster配置HA相比Hadoop的NameNode和ResourceManager的HA来说,比较简单,几乎不用配置什么:[/size][code="xml"] hbase.rootdir hdfs://ns1/hbase hbase.cluster.distribut...2015-11-12 17:05:57 · 190 阅读 · 0 评论 -
设置Hadoop+Hbase集群pid文件存储位置
[size=large] 有时候,我们对运行几天或者几个月的hadoop或者hbase集群做停止操作,会发现,停止命令不管用了,为什么呢?因为基于java开发的程序,想要停止程序,必须通过进程pid来确定,而hadoop和hbase默认的情况下,会把pid文件存储在Linux上的/tmp目录的某个目录下,进程名命令规则一般是 框架名-用户名-角色名.pid,而默认情况下,linux的tmp里...2015-10-20 13:40:55 · 178 阅读 · 0 评论 -
hadoop2.2生态系统快速安装脚本
[b][color=green][size=large]对于使用hadoop进行开发的朋友们,可能要自己搭建一套hadoop的运行环境,如果不是经常变动的还好,如果,经常搭建而且还是多台机器,那么我们一个个的安装,就显得有点捉襟见肘了,这也是这个脚本诞生的目的,主要帮助我们在快速搭建hadoop集群,以及安装底层的配置依赖环境如JDK,Maven,Ant等,在安装hadoop前,还有一些关于lin...2014-09-23 15:08:55 · 124 阅读 · 0 评论 -
如何使用scala+spark读写hbase?
最近工作有点忙,所以文章更新频率低了点,希望大家可以谅解,好了,言归正传,下面进入今天的主题:如何使用scala+spark读写Hbase软件版本如下:scala2.11.8spark2.1.0hbase1.2.0公司有一些实时数据处理的项目,存储用的是hbase,提供实时的检索,当然hbase里面存储的数据模型都是简单的,复杂的多维检索的结果是在e原创 2017-06-12 19:53:05 · 6172 阅读 · 0 评论 -
关于Hbase多版本存储的一个注意点
我们知道hbase是一个多版本的管理系统,在0.96的版本之前默认每个列是3个version,在hbase 0.96之后每个列是1个version,所谓的version其实就是同一条数据插入不同的时间戳来实现的,在hbase底层的存储是基于时间戳排序的,所以每次我们查到的数据都是最新的版本,除非我们指定了要读取特定的时间范围的数据。先看下Hbase里面Put和Delete命令的api:Put:Pu...原创 2018-04-19 11:49:51 · 5540 阅读 · 0 评论 -
图解Hbase的单机伪分布式部署
[b][color=green][size=x-large]HBase 全称Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。本篇散仙要介绍下怎么部署安装Hbase的伪分布式模式,在安装hbase前,首先得保证你的hadoop环境已经安装好,并且可以正常使用,因为hbase底层存...2013-11-18 17:39:21 · 111 阅读 · 0 评论 -
图解Hbase的完全分布式部署
[b][color=olive][size=x-large]上篇文章,散仙介绍了Hbase的单机伪分布式的安装,那么今天,散仙再来介绍下Hbase的完全分布式的安装部署,完全分布式的安装同样是基于Hadoop的HDFS底层的,也就是说,要想完成Hbase分布式的安装,那么你的Hadoop坏境也必须是完全分布式的,然后一个Hbase应用配套的部署在一个Hadoop节点上,关于Hadoop的完全分布式...2013-11-19 17:58:33 · 313 阅读 · 0 评论 -
图解Hbase之使用外置Zookeeper分布式集群
[b][color=green][size=x-large]散仙,在上篇文章,已经介绍了Hbase的完全分布式集群部署,这次要介绍的,也是基于Hbase的完全分布式集群,只不过集群的zookeeper与上次的不同,我们都知道Hbase为了简化集群部署,已经内置了zookeeper,大部分时候使用内置的zookeeper都可以非常方便的部署集群,而这一点与solr中solrcloud的集群部署非常相...2013-11-21 15:32:17 · 478 阅读 · 0 评论 -
如何使用Java API读写Hbase
[b][color=olive][size=large]Hbase是够建在HDFS之上的半结构化的分布式存储系统,具有HDFS的所有优点,同时也有自己的亮点,支持更快速的随机读写以及更灵活的Scan操作,而在HDFS上这一点我们是远远做不到的,因为HDFS仅支持Append追加操作,而且也不具备随机读写一条数据的功能,实际上HDFS扫描的范围按Block来算的,所以从某个角度来言,Hbase利用S...2013-11-28 20:04:03 · 494 阅读 · 0 评论 -
Hbase异常(无法定位登录配置)
[color=green][size=large][b]散仙,最近再用Sqoop从Mysql数据库里向Hbase里导入数据,导入成功后,在eclipse上使用Java Hbase API的连接集群,打印所有数据,结果一运行程序,日志显示无法定位登录配置,具体信息如下:[/b][/size][/color][code="java"]2013/12/29-02:20:46 INFO ZooK...2013-12-29 02:48:04 · 217 阅读 · 0 评论 -
Hadoop2.2.0集成Hbase0.96报的一个异常
[color=green][size=large]最近项目抓取的数据,存在Hbase里,所以需要从Hbase里读取数据,创建连接时,发现总是报如下的一个异常:[/size][/color][img]http://dl2.iteye.com/upload/attachment/0099/0648/7a8992ed-bd18-334f-a976-5ac3f1a5d78c.jpg[/img]...2014-07-14 11:18:35 · 125 阅读 · 0 评论 -
Java连接Hbase0.96异常
[b][color=olive][size=large]在Windows上直接使用JAVA API连接Hbase0.96报的一个异常,这个异常在Hbase0.94的版本里是没有的,为什么? 跟你所用的底层的Hadoop有关系,如果是底层hadoop是1.x的版本,那么没有这个问题,如果是2.x的hadoop,那么需要注意了,可能会出现下面这个问题,异常如下:[/size][/color][/b]...2014-07-14 13:43:49 · 174 阅读 · 0 评论 -
Hadoop2.2.0+Hbase0.96.2分布式集群搭建
[b][color=olive][size=large]最近项目有用到Hbase存储数据,由于现在的hadoop的集群是基于hadoop2.2.0的,所以不可避免的就需要使用新版的Hbase,以前和hadoop1.x的集群使用的hbase是0.94版本的,现在最新的版本是0.98的,鉴于不稳定,所以散仙就选择了0.96版的Hbase,本次搭建Hbase集群,是基于底层依赖Hadoop2.2.0...原创 2014-07-23 21:39:10 · 144 阅读 · 0 评论 -
如何使用Java API操作Hbase(基于0.96新的api)
[b][color=green][size=large]写了个Hbase新的api的增删改查的工具类,以供参考,直接拷贝代码就能用,散仙觉得基础的功能,都有了,代码如下:[/size][/color][/b][code="java"]package com.dhgate.hbase.test;import java.util.ArrayList;import java.util.L...2014-07-24 20:16:34 · 178 阅读 · 0 评论 -
Hadoop2.2.0+Hive0.13+Hbase0.96.2集成
[b][color=green][size=large]本篇,散仙主要讲的是使用Hive如何和Hbase集成,Hbase和Hive的底层存储都在HDFS上,都是hadoop生态系统中的重要一员,所以他们之间有着很亲密的联系,可以相互转换与操作。hadoop,hbase和hive的搭建就不重复说了,不会的朋友,可以看散仙前面的博客,下面直接进入重点,关于hive集成hbase这一块,网上...2014-08-06 20:49:48 · 142 阅读 · 0 评论 -
关于Hbase多版本存储的一个注意点
我们知道hbase是一个多版本的管理系统,在0.96的版本之前默认每个列是3个version,在hbase 0.96之后每个列是1个version,所谓的version其实就是同一条数据插入不同的时间戳来实现的,在hbase底层的存储是基于时间戳排序的,所以每次我们查到的数据都是最新的版本,除非我们指定了要读取特定的时间范围的数据。先看下Hbase里面Put和Delete命令的...2018-04-19 11:39:16 · 1235 阅读 · 0 评论