HBase
a大数据yyds
大数据初学者
展开
-
hive_hbase一个综合练习题目总共包括以下部分
1.数据的预处理阶段2.数据的入库操作阶段3.数据的分析阶段4.数据保存到数据库阶段5.数据的查询显示阶段给出数据格式表和数据示例,请先阅读数据说明,再做相应题目。提供文本内容:video.txtuser.txt数据说明:表1-1 视频表表1-2 用户表原始数据示例:qR8WRLrO2aQ:mienge:406:People & Blogs:599:2788...原创 2020-01-02 16:02:19 · 13480 阅读 · 0 评论 -
Hbase总结
Hbase的安装部署 1、软件包的上传解压 2、修改hbase.env.sh 文件 配置JAVA_HOME 设置hbase使用外部zppkeeper export HBASE_MANAGES_ZK=false 配置 hbase-site.xml 见讲义 hbase.zookeeper.property.dataDir配置的一定要是zooke...原创 2019-12-26 11:30:58 · 1554 阅读 · 1 评论 -
HbaseAPI02
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.filter.*;import org.apache.hadoop.hbase.util.Byt...原创 2019-12-26 11:24:04 · 1079 阅读 · 0 评论 -
hbaseAPL
package com.czxy.demo01;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.filter.*;import org.apa...原创 2019-12-26 11:22:40 · 1138 阅读 · 0 评论 -
HBase的rowKey设计技巧
HBase的rowKey设计技巧:HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有以下几种方式:1.通过get方式,指定rowkey获取唯一一条记录2.通过scan...原创 2019-12-26 11:10:06 · 1034 阅读 · 0 评论 -
HBase的预分区
1、为何要预分区?增加数据读写效率负载均衡,防止数据倾斜方便集群容灾调度region优化Map数量2、如何预分区?每一个region维护着startRow与endRowKey,如果加入的数据符合某个region维护的rowKey范围,则该数据交给这个region维护。3、如何设定预分区?1、手动指定预分区hbase(main):001:0> create ‘staff’,...原创 2019-12-26 11:04:48 · 931 阅读 · 0 评论 -
Sqoop整合HBase
sqoop是一个数据导入导出的工具,可以将关系型数据库当中的数据导入到大数据平台来,也可以将大数据平台当中的数据导入到关系型数据库当中去 我们也可以通过sqoop导入数据到hbase或者从hbase当中导出数据需求一:将mysql表当中的数据导入到HBase当中来第一步:修改sqoop配置文件sqoop导入导出HBase的数据,需要修改sqoop的配置文件sqoop-env.shcd /e...原创 2019-12-26 10:51:52 · 870 阅读 · 0 评论 -
hive与HBase的整合
1、hive与HBase的整合hive与我们的HBase各有千秋,各自有着不同的功能,但是归根接地,hive与hbase的数据最终都是存储在hdfs上面的,一般的我们为了存储磁盘的空间,不会将一份数据存储到多个地方,导致磁盘空间的浪费,我们可以直接将数据存入hbase,然后通过hive整合hbase直接使用sql语句分析hbase里面的数据即可,非常方便.需求一:将hive分析结果的数据,保存...原创 2019-12-26 10:39:47 · 584 阅读 · 0 评论 -
HBase与hive的介绍
1、HBase与hive的对比Hive数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。用于数据分析、清洗Hive适用于离线的数据分析和清洗,延迟较高基于HDFS、MapReduceHive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行。(不要钻不需要执行MapReduc...原创 2019-12-26 10:20:18 · 612 阅读 · 0 评论 -
将我们hdfs上面的这个路径/hbase/input/user.txt的数据文件,转换成HFile格式,然后load到myuser2这张表里面去
第一步:定义我们的mapper类 //bulkLoad 只写一个MAP代码即可 //将HDFS数据转换成HFile public static class BulkLoaddata extends Mapper<LongWritable, Text, ImmutableBytesWritable, Put> { @Override p...原创 2019-12-25 21:33:34 · 830 阅读 · 0 评论 -
通过bulkload的方式批量加载数据到HBase当中去
加载数据到HBase当中去的方式多种多样,我们可以使用HBase的javaAPI或者使用sqoop将我们的数据写入或者导入到HBase当中去,但是这些方式不是慢就是在导入的过程的占用Region资料导致效率低下,我们也可以通过MR的程序,将我们的数据直接转换成HBase的最终存储格式HFile,然后直接load数据到HBase当中去即可HBase中每张Table在根目录(/HBase)下用一个文...原创 2019-12-25 21:28:56 · 610 阅读 · 0 评论 -
读取HBase的表数据,然后将数据写入到hdfs上面去
读取HBase的表数据,然后将数据写入到hdfs上面去1、Mapper public static class mapHdfs extends TableMapper<Text, Text> { @Override protected void map(ImmutableBytesWritable key, Result value, Contex...原创 2019-12-25 21:26:02 · 1401 阅读 · 0 评论 -
读取HDFS文件,写入到HBase表当中去
读取hdfs路径/hbase/input/user.txt内容如下0007 zhangsan 180008 lisi 250009 wangwu 20第一步:准备数据文件准备数据文件,并将数据文件上传到HDFS上面去hdfs dfs -mkdir -p /hbase/inputcd /export/servers/vim user.txt0...原创 2019-12-25 21:15:04 · 1804 阅读 · 2 评论 -
Hbase读写过程
1、读请求过程:meta表是hbase系统自带的一个表。里面存储了hbase用户表的元信息。元信息为meta表内记录一行数据是用户表一个region的start key 到endkey的范围。meta表存储在regionserver里。 具体存储在哪个regionserver里?zookeeper知道。过程:1.客户端到zookeeper询问meta表在哪2.客户端到meta所在的节点...原创 2019-12-25 20:50:08 · 820 阅读 · 0 评论 -
HBase底层原理
HBase底层原理系统架构:Client:1 包含访问hbase的接口,client维护着一些cache来加快对hbase的访问,比如regione的位置信息。Zookeeper:1、zk的选举机制 保证任何时候,集群中只有一个master2、 实时监控Region Server的状态,将Region server的上线和下线信息实时通知给Master3、 存贮所有Region的寻...原创 2019-12-13 20:37:57 · 1908 阅读 · 0 评论 -
ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing
Hbase报错:(在启动hbase的时候需先启动zkServer.sh如没有启动成功会报如下错)ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing(报错原因:主进程正在初始化)解决方案:主控形状正在初始化,检查zookeeper的状态,然后重新连接hbase shell进入zookeeper...原创 2019-12-13 16:09:56 · 1652 阅读 · 0 评论 -
ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet
Hbase报错:ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet报错原因:这种情况是由于不正常的关闭hadoop,从而导致hadoop进入了安全模式产生的原因。解决方案:让hadoop退出安全模式进入hadoop下的binhdfs dfsadmin -s...原创 2019-12-13 15:59:55 · 6068 阅读 · 0 评论 -
HBase常用shell操作
1、进入HBase客户端命令操作界面$ bin/hbase shell2、查看帮助命令hbase(main):001:0> help3、查看当前数据库中有哪些表hbase(main):002:0> list4、创建一张表创建user表,包含info、data两个列族hbase(main):010:0> create ‘user’, ‘info’, ‘da...原创 2019-12-11 21:30:45 · 1361 阅读 · 2 评论 -
Hbase的安装部署
第一步:下载对应的HBase的安装包所有关于CDH版本的软件包下载地址如下http://archive.cloudera.com/cdh5/cdh/5/HBase对应的版本下载地址如下http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.14.0.tar.gz第二步:压缩包上传并解压将我们的压缩包上传到node01服务器的/ex...原创 2019-12-11 21:19:01 · 1453 阅读 · 2 评论 -
HBase基本介绍
1HBase基本介绍、简介hbase是bigtable的开源java版本。是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储结构化和半结构化的松散数据。Hbase查询数据功能很...原创 2019-12-10 18:12:57 · 1461 阅读 · 1 评论