![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hbase
文章平均质量分 95
小强签名设计
真正牛逼的生活是既可以朝九晚五又可以浪迹天涯。
展开
-
Hbase的bulkload流程与实践
通常MapReduce在写HBase时使用的是方式,在 reduce 中直接生成 put 对象写入HBase,该方式在大数据量写入时效率低下(HBase 会 block 写入,频繁进行 flush、split、compact 等大量 IO 操作),并对HBase节点的稳定性造成一定的影响(GC 时间过长,响应变慢,导致节点超时退出,并引起一系列连锁反应),而HBase支持bulk load的入库方式,它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接在HDFS中生成持久化的HFile。原创 2023-06-15 10:03:21 · 2517 阅读 · 0 评论 -
Hadoop和Hbase动态扩展
环境:Centos7.2 64位hadoop-2.6.0-cdh5.5.2hbase-1.0.0-cdh5.5.2jdk1.8.0_91master:192.168.205.153slave1:192.168.205.154slave2:192.168.205.155新增节点slave3:192.168.205.156一、hadoop添加节点原创 2017-11-16 19:51:09 · 2050 阅读 · 0 评论 -
Hbase如何根据列值来查询整条数据
我们知道Hbase不能像关系型数据库那样根据字段的值来查询其他的值,那么可以为hbase建立二级索引来达到这样的效果 Hbase可以用协处理器来建二级索引的,但我这里为了测试方便,直接用Java API往hbase表中插入数据的时候同时也往二级索引表中插入数据我设计的原表数据结构是:rowkey:待定列族1:jiben 列:dbopt,probeid原创 2017-11-23 09:17:55 · 17839 阅读 · 0 评论 -
Flume自定义功能实现
该功能可以实现flume读取xml配置文件在avro sink模式下可以同时开启多个端口,并且根据客户定义的xml来将数据处理后导入多个集群中的相应hbase表中。实现流程如下:准备工作:首先开启多个集群并且确认hbase和flume可以正常使用,还需将dom4j(用来解析xml文件)所需要的jar包dom4j-1.6.1.jar和jaxen-1.1-beta-7.jar(利用xpath技术来像s...原创 2017-12-12 09:59:05 · 1461 阅读 · 0 评论 -
Flume断点续传深入研究
方法一:在excel source中运用复杂的tail命令在百度中搜索到一篇文章:https://my.oschina.net/leejun2005/blog/288136可以在tail传的时候记录行号,下次再传的时候,取上次记录的位置开始传输,类似:agent1.sources.avro-source1.command = /usr/local/bin/tail -n +$(tai原创 2017-12-12 10:54:11 · 5835 阅读 · 0 评论 -
mr解析xml将数据(ipv4、ipv6)批量导入hbase
首先在hbase中建立相应的表:hbase(main):003:0> create 'messages','cf'[hadoop@h71 hui]$ vi messages3.javaimport java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;impor原创 2017-12-12 11:41:44 · 583 阅读 · 0 评论 -
Hbase通过命令将数据批量导入的方法
抛砖引玉:hbase建表:hbase(main):003:0> create 'people','0'将提前准备好的数据上传到hdfs:[hadoop@h71 ~]$ vi people.txt1,jimmy,25,jiujinshan2,tina,25,hunan[hadoop@h71 ~]$ hadoop fs -mkdir /bulkloa原创 2017-12-12 13:36:34 · 3414 阅读 · 2 评论 -
使用HBase协处理器---基本概念和regionObserver的简单实现
本文转载自:http://www.cnblogs.com/ios123/p/6370724.html1. 简介对于HBase的协处理器概念可由其官方博文了解:https://blogs.apache.org/hbase/entry/coprocessor_introduction总体来说其包含两种协处理器:Observers和Endpoint。其中Observers可以转载 2017-08-08 17:05:15 · 1144 阅读 · 0 评论 -
Hbase进行RowCount统计
对于Table内RowKey个数的统计,一直是HBase系统面临的一项重要工作,目前有三种执行该操作的方式。测试环境:Apache版的 hadoop-2.6.0 (cdh版的hadoop-2.6.0-cdh5.5.2也可以)Apache版的 hbase-1.0.0 (一开始我用的是cdh版的hbase-1.0.0-cdh5.5.2,结果各种bug,无奈只能用Apache版的原创 2017-07-18 11:26:32 · 16521 阅读 · 9 评论 -
Elasticsearch对Hbase中的数据建索引实现海量数据快速查询
我已将项目代码上传,地址https://github.com/xiazi123/Test一、将项目导入myeclipse中方法1:将下载好的文件(是解压es_hbase6文件夹而不是Test-master)解压到你myeclipse的Workspaces目录中,然后在myeclipse中右键点击Import导入项目方法2:将下载好的文件解压到你的Windows桌面,然后在myeclipse(我这里...原创 2017-09-19 14:33:44 · 25865 阅读 · 11 评论 -
hbase使用Java或者Scala的一些基础操作
建表:import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.had原创 2017-05-23 14:27:45 · 1593 阅读 · 1 评论 -
Hbase用协处理器建二级索引
1.起因(Why HBase Coprocessor)HBase作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(2.灵感来源( Source of Inspration)HBase协处理器的灵感来自于Jeff Dean 09年的演讲( P66-67)。它根据该演讲实现了类似于bigtable的协处理器,包括以下原创 2017-11-15 19:45:09 · 2156 阅读 · 2 评论 -
hbase shell输入无法使用退格键删除
前言:在虚拟机中的命令终端可以在hbase shell中用用退格键正常删除,但是用SecureCRT连接虚拟机在终端界面hbase shell中输入无法用退格键删除(我在hbase-0.90.6-cdh3u5没有遇到这种情况,可是在hbase-1.0.0-cdh5.5.2中却遇到了这种问题),搜索了一番,解决如下选项--会话选项--仿真--终端--选择Linux(默认是VT100)原创 2017-06-15 16:40:18 · 3424 阅读 · 1 评论 -
hbase数据查询及过滤器详细使用
创建并插入数据:hbase(main):179:0> create 'scores','grade','course'hbase(main):180:0> put 'scores','zhangsan01','course:art','90'hbase(main):181:0> scan 'scores'ROW原创 2017-06-23 11:40:34 · 22333 阅读 · 3 评论 -
解决mapreduce无法将数据批量导入hbase的问题
hadoop版本:hadoop-2.6.0-cdh5.5.2hbase版本:hbase-1.0.0-cdh5.5.2创建日志表:import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;i原创 2017-05-26 17:28:56 · 2004 阅读 · 0 评论 -
自定义实现flume中的HbaseEventSerializer接口
前言:flume-ng里面的SimpleHbaseEventSerializer只提供了最简单的数据插入hbase功能,如果还有其他需要,就得自己写HbaseEventSerializer类,实现flume中的HbaseEventSerializer接口。一个简单的实例如下:我的实验环境:flume-1.6.0-cdh5.5.2 (只在h71这台机器原创 2017-06-05 16:31:16 · 3313 阅读 · 1 评论 -
flume将数据导入到hbase中
安装flume:[hadoop@h71 ~]$ tar -zxvf flume-ng-1.6.0-cdh5.5.2.tar.gz修改 flume-env.sh 配置文件,主要是JAVA_HOME变量设置[hadoop@h71 apache-flume-1.6.0-cdh5.5.2-bin]$ cp conf/flume-env.sh.template conf/flume-env.sh原创 2017-05-17 15:22:01 · 4402 阅读 · 0 评论 -
Phoenix映射HBase数据表
1. 说明安装好phoenix后对于Hbase中已经存在的数据表不会自动进行映射,所以想要再phoenix中操作HBase已有数据表就需要手动进行配置。2. 创建HBase表hbase(main):002:0> create 'phoenix','info'3. 插入数据hbase(main):004:0> put 'phoenix', 'row001','in原创 2017-05-11 18:25:01 · 2655 阅读 · 1 评论 -
kafka+storm+hbase整合试验(Wordcount)
kafka+storm+hbase整合:kafka作为分布式消息系统,实时消息系统,有生产者和消费者;storm作为大数据的实时处理系统;hbase是apache hadoop 的数据库,其具有高效的读写性能!这里把kafka生产的数据作为storm的源头spout来消费,经过bolt处理把结果保存到hbase。基础环境:Redhat 5.5 64位(我这里是三台虚拟机h40,h41,h42)my...原创 2017-05-19 16:26:32 · 6954 阅读 · 3 评论 -
Spark Streaming从Kafka自定义时间间隔内实时统计行数、TopN并将结果存到hbase中
一、统计kafka的topic在10秒间隔内生产数据的行数并将统计结果存入到hbase中先在hbase中建立相应的表:create 'linecount','count'开启kafka集群并建立相应的topic:[hadoop@h71 kafka_2.10-0.8.2.0]$ bin/kafka-topics.sh --create --zookeeper h71:2181,h原创 2017-08-02 15:23:58 · 3703 阅读 · 0 评论 -
zookeeper-3.4.5-cdh5.5.2和hbase-1.0.0-cdh5.5.2安装
前提:已将安装有hadoop集群装zookeeper-3.4.5-cdh5.5.2:hadoop@h21:~$ tar -zxvf zookeeper-3.4.5-cdh5.5.2.tar.gz将zookeeper-3.4.5/conf目录下面的 zoo_sample.cfg修改为zoo.cfghadoop@h21:~$ cd zookeeper-3.4.5-cdh5.5.2/原创 2017-05-18 10:06:04 · 895 阅读 · 0 评论 -
Hbase压力测试
一、自己写Java程序测试hbase单机模式1.测试数据:插入测试数据的TestTable表结构为一个列族info,一个列data,每行rowkey插入的数据量大小为900个英文字符。如:value=XXXXXXXXXXXXXXXXJJJJJJJJSSSSSSSSRRRRRRRRFFFFFFFFQQQQQQQQKKKKKKKKQQQQQQQQBBBBBBBBJJJJJJJJDDDDDD原创 2017-09-28 17:54:00 · 9374 阅读 · 0 评论 -
Hbase单机模式和伪分布式模式安装
安装环境:Centos7.2 64位jdk1.8.0_91一、安装前准备工作:1.在安装之前首先应将防火墙和SELinux关闭。2.若没有jdk或者版本过低请先安装相应的jdk3.我没有在root用户下安装而是安装在了hadoop用户下,所以先创建hadoop用户4.修改/etc/sysconfig/network和/etc/hosts文件来修改hostname(一开始我以为这一步是可以忽略的,但...原创 2017-09-28 17:19:04 · 2166 阅读 · 0 评论 -
hbase shell操作命令大全
一、hbase web操作访问地址 http://h71:60010h71的ip配置在$HBASE_HOME/conf/hbase-site.xml中ip映射成主机名 在env/hosts中配置 在windows系统中的C:\Windows\System32\drivers\etc目录下的hosts文件中配置)二、hbase shell 基本操作:原创 2017-06-23 12:02:39 · 10971 阅读 · 1 评论