hbase
RayBreslin
大数据开发、设计企业应用
展开
-
HBase:不同KeyValue之间如何进行大小比较,为什么Timestamp新的大,反而比较小?
一、疑难描述学习范欣欣大佬Hbase的读取流程博客,将本地HFile通过StoreFileScanner和MemstoreScanner合并形成一个heap(最小堆),所谓heap是一个优先级队列,队列中元素是所有scanner,排序规则按照scanner seek到的keyvalue大小由小到大进行排序。但是,对keyvalue大小排序规则有些疑问,博客中提及:不同KeyValue之间如何进行大小比较?是采用如下策略:上文提到KeyValue中Key由RowKey,ColumnFamily,Qua原创 2020-05-16 18:51:23 · 621 阅读 · 0 评论 -
(转)为何HBase速度很快
【转载原因:hbase读取速度解释很清晰】【转载原文:https://blog.csdn.net/keda8997110/article/details/50916800】为何HBase速度很快?HBase能提供实时计算服务主要原因是由其架构和底层的数据结构决定的,即由LSM-Tree(Log-Structured Merge-Tree) + HTable(region分区) +...转载 2020-03-31 15:52:50 · 586 阅读 · 0 评论 -
(转)HBase为什么不建议设置过多的列簇?
在HBase中,是允许设置多个列簇的,但是为什么在实际生产中会设置很少的列簇呢?一般设置在1至3个左右,尽量是越少越好。原因有多个方面,具体简要说明几点:1、列簇的数量对flush的影响在一个RegionServer上有一个或多个region,每个region又由一个或多个store组成,一个store存储的就是一个列簇,也就是说列簇的数量越多,每个region的的store就越多,那么r...转载 2020-03-15 13:15:54 · 1330 阅读 · 0 评论 -
(转)为何HBase速度很快
【转载原因:讲解非常详细】【原文地址:https://blog.csdn.net/keda8997110/article/details/50916800?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task】为何HBase速度很快?H...转载 2020-03-10 11:13:57 · 307 阅读 · 0 评论 -
Hbase建表报错:java.io.IOException: Failed to get result within timeout
一、问题描述环境:CDH5.15.2操作hbase建表语句,但是报错:java.io.IOException: Failed to get result within timeout, timeout=60000ms at org.apache.hadoop.hbase.client.ScannerCallableWithReplicas.call(ScannerCallable...原创 2020-02-27 13:15:21 · 2411 阅读 · 0 评论 -
(转)HBase WAL简介
【转载原因:解释很清楚】【转载原文:https://www.jianshu.com/p/65cb8cd81f40】RegionServer 会将数据保存在内存中(MemStore),直到满足一定条件,将其 flush 到磁盘上。这样可以避免创建很多小文件。内存存储是不稳定的,常见的也是 HBase 使用的解决方案是write-ahead logging(WAL):每次更新操作都会写日志,...转载 2020-02-05 22:35:58 · 1175 阅读 · 0 评论 -
远程链接HBase调试报错:Exception in thread "main" java.lang.ExceptionInInitializerError
一、问题描述1.环境CentOS6,CDH5.7.0,hbase-1.2.0-cdh5.7.02.报错描述外部连接hbase服务器,在创建admin时报错:String nameSpace = "Test"; String tbName = "student"; String colFamily = "info"; // 1.读...原创 2019-04-10 18:38:52 · 2038 阅读 · 0 评论 -
大数据调试环境配置(1):外部链接HBase调试环境配置
一、目的在开发过程中,不可避免需要在集群外部调试程序,以便快速开发,测试。二、环境1.IDEA2.CDH 5.7.0(Hbase、HADOOP)三、步骤1.创建Maven项目2.加载对应CDH需求依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache...原创 2019-04-10 19:04:06 · 2118 阅读 · 1 评论 -
远程调试HBase,报错:org.apache.hadoop.hbase.MasterNotRunningException; 必须对其进行捕获或声明以便抛出
一、问题描述远程调试HBase,创建配置文件,建立管理员Admin,但是创建时报错:org.apache.hadoop.hbase.MasterNotRunningException在代码运行后报错,我运行之后报错:Warning:(22, 28) java: org.apache.hadoop.hbase.client.HBaseAdmin中的HBaseAdmin(org...原创 2019-04-09 19:04:07 · 1277 阅读 · 0 评论 -
Key-Value Store Indexer(1):实现solr对hbase中列簇进行二级索引
一、实现功能最近,因为hbase查询速度非常慢,尤其通过模糊搜索无法满足需求。所以,希望通过在solr中建立对应列簇的二级索引,进行模糊搜索。通过查找,使用CDH的Key-Value Store Indexer组件,对hbase指定表的指定列簇做监控,实现自动增量填充至solr指定字段,做模糊搜索。二、环境CDH5.15.2三、配置步骤1.在 HBase 指定列簇上启用复制,最...原创 2019-08-06 00:14:57 · 743 阅读 · 0 评论 -
hue(6):CDH-Hue集成solr和hbase
一、 实现功能、CDH集群通过可视化界面HUE查看solr 和hbase实例。并且可以做出需要的dash board从而可以更加友好展示结果。二、HUE集成solr步骤1.HUE开启Solr服务2.修改配置备注:如果是solr cloud集群,则填写solr其中当前实例所在的节点ip即可(任意节点也可。)##URL of the solr serversolr_ur...原创 2019-08-06 13:04:38 · 1549 阅读 · 3 评论 -
HBase(4):HBase读写流程
1.hbase读写流程(1)读流程:根据表名称和rowkey(start-end)找到对应region -》在zk中存储了meta的region信息,从zk中获取相应的region信息 -》找到对应的regionserver -》找到region (2)写流程:根据表名称和rowkey(start-end)找到对应region -》在zk中存储了met...原创 2018-11-28 20:51:55 · 484 阅读 · 0 评论 -
HBase(9):hbase与hive集成
一、实现功能1.HBase自身的查询非常有限,仅支持有限的scan get,做不了聚合查询(max avg min max),也做不了分组联合(jion)子查询等,但是Hive是支持的,非常友好,非常强大,只是Hive存储不占优势2.所以,可以将数据保存到HBase,但是可以通过hive映射表,使用hql做一些丰富查询3.缺点:虽然查询功能丰富了,但是底层的执行依然是mapredcue,会...原创 2018-12-01 20:05:03 · 276 阅读 · 0 评论 -
HBase(8):hbase与MapReduce集成案例
一、实现功能1.importtsv将tsv导入hbase2.importtsv将csv导入hbase3.importtsv通过completebulkload导入hfile的文件数据二、实例准备1.需求stu_info有20列数据,将info下name这列数据读出来,然后写入另一张表tb02。2.hbase新建两张表create 'stu_info','info'...原创 2018-12-01 19:40:11 · 839 阅读 · 0 评论 -
Idea编译报错:SLF4J: Class path contains multiple SLF4J bindings.
1.问题描述idea编译java报错:log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).log4j:WARN Please initialize the log4j system properly.log4j:WARN See...原创 2018-09-26 08:35:31 · 4776 阅读 · 2 评论 -
阿里云搭建大数据平台(7):Hbase和zookeeper安装和配置
一、概述1.安装hbase需要环境:hadoop环境,zookeeper的环境2.Hbase结构hbase是分布式主从架构的数据库 (1)主节点:master 负责管理型工作,类似于namenode (2)从节点: regionserver具体的数据流和数据存储工作,类似与datanode 二、zookeeper安装和配置伪分布式...原创 2018-11-06 00:08:30 · 1731 阅读 · 0 评论 -
sqoop(5):export之hbaseTomysql
一、实现功能1.目的:使用sqoop将hbase中数据导入到mysql中,sqoop没有这个直接功能,需要hive做一个中间转换。2.环境:hadoop2.7.3、hive1.2.1、hbase-0.98.6、sqoop-1.4.7.bin。二、实现步骤1.开启hdfsyarn(这个一定要开启,因为sqoop需要调用)zkmetastorehbase服务器2.建表...原创 2018-11-18 00:34:55 · 307 阅读 · 0 评论 -
HBase:java api连接hbase报错 ERROR AsyncProcess: Failed to get region location
1.问题描述JavaAPI操作HBase数据库报错如下,经检查,HBase本身没有问题,可以创建以及添加数据。但是javaapi就是连接不上去,坑了两天没有思路。该式的方法都试了,centos和windows的hosts都配置了对应的域名,但是就是连接不上去。18/11/23 07:31:53 INFO ZooKeeper: Client environment:java.io.tmpd...原创 2018-11-24 15:26:49 · 9876 阅读 · 3 评论 -
HBase(4):HBase操作JAVA API
一、功能通过JAVA API实现数据库的创建表、删除表以及增删改查基本操作。二、配置1.Maven依赖 <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloude...原创 2018-11-29 07:44:30 · 461 阅读 · 0 评论 -
HBase(10):Hbase与phoenix集成
一、HBase与phoenix原因1.phoenix:可以类似于mysql,作为客户端JDBC的驱动对hbase中的数据进行低延迟的访问2.内部将sql查询语句编译成hbase内部的一系列复杂scan操做二、准备1.phoenix(1)下载:官网http://phoenix.apache.org/download.html(2)自己编译(推荐,更加保证兼容性)参考之前博...原创 2018-12-02 11:10:12 · 397 阅读 · 0 评论 -
HBase(5):分布式hbase部署
一、准备工作1.准备完全分布式的hadoop环境2.准备完全分布式的zk环境3.节点的时间都要同步好4.ssh配置好二、安装和配置cdh版本1.hbase解压缩到app目录下tar -zxvf hbase-0.98.6-cdh5.3.6.tar.gz -C /opt/app/ 2.修改hbase-env.sh、hbase-site.xml、regionservers ...原创 2018-11-29 20:57:31 · 192 阅读 · 0 评论 -
HBase(6):热点与表的设计原则
一、热点问题1.热点问题描述某一时间段内客户端并发读写操做集中在某一个region上或者某一台regionserver上,导致region或者regionserver的负载压力过大,是其他的好几倍,就造成热点问题。针对rowkey某个范围的比较,造成压力过大,浪费集群资源2.解决:预分区,一开始创建表时就指定有多少个region(a)create 't1', 'f1', SPLI...原创 2018-11-29 23:36:05 · 231 阅读 · 0 评论 -
Phoenix(2):Phoenix常用操作
一、基本原则1.phoenix中的表名和字段名不加双引号,都为大写,加上双引号,则区分大写;2.phoenix和RDBMS中一样,有数据类型3.插入数据时,values中数值类型不用引号,字符串只能是单引号二、常用语句1.创建表create table us_population(state varchar(2),city varchar(15),population ...原创 2018-12-02 22:19:10 · 1723 阅读 · 0 评论 -
Phoenix(4):phoenix中创建hbase的映射表
一、实现功能phoenix映射hbase中表,从而实现快速复杂查询与编辑。二、步骤1.hbase中要有对应的表,以及数据create 'teacher','info','contact'put 'teacher','1001','info:name','Jack'put 'teacher','1001','info:age','28'put 'teacher','1001...原创 2018-12-02 22:33:32 · 1095 阅读 · 0 评论 -
Phoenix(5):SQuirreL SQL Client 连接 phoenix
1.工具简介SQuirreL:是连接phoenix的小工具2.下载安装包下载地址:http://squirrel-sql.sourceforge.net/,下载下来呢是一个jar文件,双击安装,直接下一步即可3.配置(1)将服务器上phoenix根目录下的phoenix-4.9.0-cdh5.7.0-client.jar拷贝到安装目录squirrel-sql-3.8.1\lib...原创 2018-12-02 23:05:34 · 854 阅读 · 0 评论 -
HBase(1):shell基本命令
一.功能实现使用shell基本命令,进行hbase数据库操作二.环境准备1.开启hdfs2.开启zk3.开启regionser和master三.基本Hbase操作1.hbase namespace(1)创建namespacecreate_namespace 'ns1'create_namespace 'nstest'(2)展示namespaceli...原创 2018-11-27 23:16:00 · 705 阅读 · 0 评论 -
HBase(2):hbase物理模型结构
一.物理结构图二.关键概念1.存储单元Cell(1)存储单元cell:rowkey+列簇+timestamp+version,确定一个单元格的值 (2)数据无类型,以字节码的形式进行存储2.Region(1)列分割:table中所有的行都是按照字典序进行排列,可以在行的方向分割为多个region(2)region是hbase中分布式存储和负载均衡的最小单元,存储的最小...原创 2018-11-27 23:30:58 · 622 阅读 · 0 评论 -
HBase(3):内部机制flush & compact & split
1.实现功能当向hbase数据库中存储数据的时候,实际存储过程是有三个阶段:flush & compact & split。 2.分步说明(1)flush Client写入 -> 存入MemStore,一直到MemStore满(Hlog)-> Flush成一个StoreFile存储在HDFS上 (2)compact ...原创 2018-11-27 23:36:48 · 619 阅读 · 0 评论 -
HBase(7):hbase与MapReduce集成
一、实现功能1、从hbase里读数据将hbase里的数据作为map的输入2、将数据写入hbase将hbase作为reduce的输出3、从hbase里读数据,再写入hbase数据迁移,比如有张表:tb01有20列数据,将其中的10列数据读出来,写入另一张表tb02二、集成步骤1.hadoop的添加缺少hbase相关jar包(1)方法一:可以在hadoop的运行环境...原创 2018-12-01 19:12:58 · 275 阅读 · 0 评论 -
大数据平台常用组件端口号(转载)
版权声明: https://blog.csdn.net/JENREY/article/details/80719552 常见端口汇总:Hadoop: 50070:HDFS WEB UI端口 ...转载 2018-10-01 00:04:51 · 277 阅读 · 0 评论