HBase
文章平均质量分 79
程序员学习圈
值得去的地方,没有捷径;难走的路,才更值得开始!
展开
-
HBase抗战总结|阿里巴巴HBase高可用8年抗战回忆录
0.前言 2011年毕玄和竹庄两位大神将HBase引入阿里技术体系,2014年接力棒转到东8区第一位HBase commiter天梧手中,多年来与淘宝、旺旺、菜鸟、支付宝、高德、大文娱、阿里妈妈等几乎全BU合作伙伴携手共进,支撑了双十一大屏、支付宝账单、支付宝风控、物流详情等核心业务。2018年双十一,HBase全天处理请求2.4万亿行,单集群吞吐达到千万级别。从一个婴儿成长为青年,阿里...转载 2020-05-01 13:36:29 · 537 阅读 · 0 评论 -
HBase相对Hive查询速度快的对比
首先Hive的底层首先是MR,是属于批处理处理时间相对较长,不属于实时读写。在其架构上HBase和Hive有很大的区别. 架构介绍: Hive架构 (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至HiveServer。在启动 Clien...原创 2018-12-20 19:41:05 · 1365 阅读 · 0 评论 -
Hive 和 HBase 的区别
1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。 Apache HBas...原创 2018-12-20 18:42:21 · 214 阅读 · 1 评论 -
HBase 跨集群迁移数据-Snapshot 实现
HBase数据迁移方案有很多种,但今天我们来通过Snapshot方式来实现HBase的数据迁移(即将A集群HBase的数据迁移到B集群),废话不多说,直接进去主题吧: 参考文献:https://www.cnblogs.com/ballwql/p/hbase_data_transfer.html https://www.cnblogs...原创 2018-12-20 17:18:37 · 3284 阅读 · 0 评论 -
使用HBase 数据迁移方案介绍
一、前言 HBase数据迁移是很常见的操作,目前业界主要的迁移方式主要分为以下几类: 图1.HBase数据迁移方案从上面图中可看出,目前的方案主要有四类,Hadoop层有一类,HBase层有三类。下面分别介绍一下。参考文献:https://www.cnblogs.com/ballwql/p/hbase_data_transfe...原创 2018-09-18 21:30:08 · 415 阅读 · 0 评论 -
布隆过滤器
在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用...原创 2018-09-18 20:02:43 · 193 阅读 · 0 评论 -
Hbase 二级索引
目前 HBase 主要应用在结构化和半结构化的大数据存储上,其在插入和读取上都具有 极高的性能表现,这与它的数据组织方式有着密切的关系,在逻辑上,HBase 的表数据按 RowKey 进行字典排序, RowKey 实际上是数据表的一级索引(Primary Index),由于 HBase 本身没有二级索引(Secondary Index)机制,基于索引检索数据只能单纯地依靠 RowKey,为...原创 2018-09-18 19:36:20 · 3275 阅读 · 1 评论 -
Hbase Compaction 过程
1. minor Compaction HBase 会自动选择一些较小的 HFile,并将它们重写成更少且更大的 Hfiles,这个过程 称为 Minor Compaction。Minor Compaction 通过将较小的文件重写为较少但较大的文件来减 少存储文件的数量,执行合并排序。 Minor 操作只用来做部分文件的合并操作,不做任何删除数据、多版本数据的清理工作。 Mi...原创 2018-09-18 19:25:53 · 630 阅读 · 0 评论 -
Hbase 列族设计
在大多数的工厂环境下,往往只会设计一个列族,因为列族数量过多会导致如下的性能问题: 1. Flush 会产生大量 IO Flush 的最小单元是 region,也就是说一个 region 中的某个列族做 Flush 操作,其他的 列族也会 Flush,对每个列族而言,每次 Flush 都会产生一个文件,频繁 Flush 必然会产生更 多的 StoreFile,StoreF...原创 2018-09-18 19:23:27 · 2525 阅读 · 0 评论 -
HBase RowKey 设计
HBase 是三维有序存储的,通过 rowkey(行键),column key(column family 和 qualifier)和 TimeStamp(时间戳)这个三个维度可以对 HBase 中的数据进行快速定位。 HBase 中 rowkey 可以唯一标识一行记录,在 HBase 查询的时候,有以下几种方式: • 通过get方式,指定rowkey获取唯一一条记录...原创 2018-09-18 18:30:44 · 265 阅读 · 0 评论 -
HBase 项目
微博系统1.需求分析 1) 微博内容的浏览,数据库表设计 2) 用户社交体现:关注用户,取关用户 3) 拉取关注的人的微博内容 2.代码实现( 代码设计总览) 1) 创建命名空间以及表名的定义 2) 创建微博内容表 3) 创建用户关系表 4) 创建用户微博内容接收邮件表 5) 发布微博内容 6) ...原创 2018-09-18 14:08:51 · 568 阅读 · 0 评论 -
HBase 优化
1.高可用 在HBase中Hmaster负责监控RegionServer的生命周期,均衡RegionServer的负载,如果Hmaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。1.1 关闭HBase集群(如果没有开启则跳过此步) [luomk@hadoop102 hbase]$ b...原创 2018-09-17 23:55:02 · 184 阅读 · 0 评论 -
Hive 操作 HBase
0.Hive on Hbase HBase 用于在线业务服务,不适合做统计分析。(使用 HBase 进行查询的条件比较苛 刻,只能根据 RowKey 去进行查询) Hive 用于离线分析,适合数据分析,统计。 在 Hbase 的基础课程中,我们在 Hive 中创建表,并将表格关联到 Hbase 中的表格,通 过这种方式可以借助 HQL 对 Hbase 中的数据进行分析...原创 2018-09-17 20:01:18 · 1331 阅读 · 0 评论 -
MapReduce 操作 HBase
1.HBase与MR关系 HBase和MapReduce,这两者并没有直接关系,隶属于不同的项目。这里讲到的MapReduce on HBase是指利用HBase表做为MR计算框架的数据输入源或者输出源源,使得能够利用MR的并行计算能力计算HBase的内部数据。 2.官方HBase-MapReduce2.1 查看HBase的MapReduce任务的执行 $ bi...原创 2018-09-17 19:38:49 · 3173 阅读 · 1 评论 -
HBase API操作
1.环境准备 新建项目后在pom.xml中添加依赖:<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>1.3.1</version&g原创 2018-09-17 17:01:34 · 155 阅读 · 0 评论 -
HBase Shell 操作
1.基本操作1.1 进入HBase客户端命令行 [luomk@hadoop102 hbase]$ bin/hbase shell1.2 查看帮助命令 hbase(main):001:0> help1.3 查看当前数据库中有哪些表 hbase(main):002:0> list 2.表的操作1.1 创建表 hbase(mai...原创 2018-09-17 15:02:52 · 300 阅读 · 0 评论 -
HBase 读写流程
1.读流程: • Client先访问zookeeper,从meta表读取region的位置,然后读取meta表中的数据。meta中又存储了用户表的region信息; • 根据namespace、表名和rowkey在meta表中找到对应的region信息; • 找到这个region对应的regionserver; • 查找对应的region; ...原创 2018-09-17 14:36:44 · 601 阅读 · 0 评论 -
HBase 访问接口
• HBase 支持很多种访问,访问HBase的常见接口如下。 • Native Java API,最常规和高效的访问方式,适合Hadoop MapReduce Job并行批处理HBase表数据。 • HBase Shell,HBase的命令行工具,最简单的接口,适合HBase管理使用。 • Thrift Gateway,利用Thrift序列化技术,支持C++...原创 2018-09-17 13:20:15 · 4037 阅读 · 0 评论 -
HBase 安装部署
1.Zookeeper正常部署 首先保证Zookeeper集群的正常部署,并启动之:[luomk@hadoop102 zookeeper-3.4.10]$ bin/zkServer.sh start[luomk@hadoop103 zookeeper-3.4.10]$ bin/zkServer.sh start[luomk@hadoop104 zookeeper-3.4.10]...原创 2018-09-17 12:26:05 · 137 阅读 · 0 评论 -
HBase 架构原理详解
1.什么是HBase HBase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价的PC Server上搭建大规模结构化存储集群。 HBase是Google BigTable的开源实现,与Google BigTable利用GFS作为其文件存储系统类似,HBase利用Hadoop HDFS作为其文件存储系统; Google运行...原创 2018-09-17 11:49:17 · 581 阅读 · 0 评论