大数据Hbase技术
hbase
尘世壹俗人
做一只马喽
展开
-
如何搭建Hadoop高可用环境下的hbase
一、HBase的解压解压HBase到指定目录,可自定义:tar -zxvf hbase-1.3.1-bin.tar.gz -C /opt二、修改HBase对应的配置文件。1)HBase-env.sh修改内容:export JAVA_HOME=/opt/module/jdk1.8.0_144export HBASE_MANAGES_ZK=falseexport HBASE_PID_DIR=/var/Hadoop/pids2)hbase-site.xml修改内容:<configurati原创 2021-06-21 20:51:41 · 468 阅读 · 2 评论 -
Hive使用Hbase数据
在phoenix没出先之前使用的Hive操作Hbase,这是很老的一种使用方式,但是由于我们工作中可能会遇到这种用法,因此要会用,配置方式见我之前发的原生集群搭建中两者整合核心在于,外部表等于视图映射,内部表等于表映射 ,但是注意数据不能直接使用load语句,而是要在hive中先放在一个中转表中之后使用HIve的insert语句导入下面给大家写一个例子语句CREATE [external] TABLE hive_hbase_emp_table(empno int,ename string,job原创 2021-04-17 22:34:41 · 352 阅读 · 0 评论 -
Hbase Java API
API可以做到很多比shell界面精细的操作,操作的时候导入必要的jar之后,都是准备一个hbase提供的静态connection对象,之后使用静态代码块,进行实例化操作,步骤为先使用hbse提供的hbaseconfig……工具类的create方法实例化一个配置,之后用配置对象的set方法设置hbase.zookeeper.quorum这个是zookeeper集群的地址不要端口号使用域名就可以逗号相隔,必须是域名,这个是个官方bug,不经过域名解析连接不到zookeeper的集群,还要设置hbase.zoo原创 2021-04-17 20:49:10 · 143 阅读 · 0 评论 -
Hbase原生命令的使用
Hbase我们在日常操作中是依赖phoniex(工具名字可能打错了不要介意)执行的关系型数据库的sql,但是其实Hbase本身有自己的sql下面我们就来看看怎么操作的吧create '表名','列族名'[多个列族用逗号相隔]用来创建表,创建的时候一般不定义列族中的列,定义列也没有用,没有数据,列无意义,而且后期操作数据时列可以随着数据增加或者减少,多个列族名在后面用逗号拼接put ‘表名’ , ’行号’ , ’列族:列命’ , ’值’用来修改与添加数据,没存在的列名会自动增加,Hbase列名的开原创 2021-04-17 20:32:31 · 123 阅读 · 0 评论 -
Hbase 读取流程
在向Hbase读取数据的时候,Client先和zookeeper进行交互拿到要拉取的数据在那个regionserver中,找到之后,和regionserver交互,建立通道, 同时在读取的时候会准备一份备份在server的缓存组件blockcache中,就是说数据从regionserver中读取的顺序时的blockcache、memstore、storefile中读取需要的数据,之所以有memstore是因为虽然数据在其中进行排序,但是有一种极端情况就是要使用的数据是刚拉取过来没有排完,没来得及写入stor原创 2021-04-17 20:11:24 · 277 阅读 · 0 评论 -
Hbase 写流程
在向Hbase中写数据的时候,我们操作Client进行,Client会和zookeeper进行交互拿到要put的数据它的目的region在那个regionserver中,找到之后,和regionserver交互,建立通道,同时准备一份备份在缓存中,而在正式写数据的时候,数据会先写到预写日志WAL中,之后regionserver会立即返回写入成功的消息,而数据在regionserver中的WAL保留,由memstore对数据做字典排序,最后写入storefile......原创 2021-04-17 19:53:51 · 126 阅读 · 0 评论 -
Hbase是什么东西
Hbase是一个大数据环境下基于Hadoop数仓的非关系数据库,有别与Hive,Hive只能说是一个数仓管理工具,也有别于redis,redis是为了web端准备的一种提高效率的数据库,也可以用来做消息中间件,当然消息中间件还是kafka流行这里是为了点明hbase也是按照表为单位存储数据的,之所以说它不是关系型数据库是因为,hbase是为了大数据设计的,它不遵行三大范式,而且是分布式的Hbase的组成也很特别,库叫做命名空间,其实就是数据库,一个库中有n张数据表,它的每一张数据表,为了大数据节省运行内原创 2021-04-10 22:08:17 · 1223 阅读 · 0 评论