【HBase入门】1. HBase基础

最新推荐文章于 2023-06-19 11:09:53 发布

csdnGuoYuying

最新推荐文章于 2023-06-19 11:09:53 发布

阅读量824

点赞数

文章标签： hbase hadoop 数据库后端大数据

本文链接：https://blog.csdn.net/CSDNGuoYuying/article/details/128753486

版权

简介

Hadoop

从 1970 年开始，大多数的公司数据存储和维护使用的是关系型数据库
大数据技术出现后，很多拥有海量数据的公司开始选择像Hadoop的方式来存储海量数据
Hadoop使用分布式文件系统HDFS来存储海量数据，并使用 MapReduce 来处理。Hadoop擅长于存储各种格式的庞大的数据，任意的格式甚至非结构化的处理

Hadoop的局限

Hadoop主要是实现批量数据的处理，并且通过顺序方式访问数据
要查找数据必须搜索整个数据集，如果要进行随机读取数据，效率较低

HBase 与 NoSQL

在这里插入图片描述

NoSQL是一个通用术语，泛指一个数据库并不是使用SQL作为主要语言的非关系型数据库
HBase是BigTable的开源java版本。是建立在HDFS之上，提供高可靠性、高性能、列存储、可伸缩、实时读写NoSQL的数据库系统
HBase仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务
主要用来存储结构化和半结构化的松散数据
Hbase查询数据功能很简单，不支持join等复杂操作，不支持复杂的事务（行级的事务），从技术上来说，HBase更像是一个「数据存储」而不是「数据库」，因为HBase缺少RDBMS中的许多特性，例如带类型的列、二级索引以及高级查询语言等
Hbase中支持的数据类型：byte[]
与Hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加存储和处理能力，例如，把集群从10个节点扩展到20个节点，存储能力和处理能力都会加倍
HBase中的表一般有这样的特点
- 大：一个表可以有上十亿行，上百万列
- 面向列:面向列(族)的存储和权限控制，列(族)独立检索
- 稀疏:对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏

HBase 应用场景

对象存储
不少的头条类、新闻类的的新闻、网页、图片存储在HBase之中，一些病毒公司的病毒库也是存储在HBase之中
时序数据
HBase之上有OpenTSDB模块，可以满足时序类场景的需求
推荐画像
用户画像，是一个比较大的稀疏矩阵，蚂蚁金服的风控就是构建在HBase之上
时空数据
主要是轨迹、气象网格之类，滴滴打车的轨迹数据主要存在HBase之中，另外在技术所有大一点的数据量的车联网企业，数据都是存在HBase之中
CubeDB OLAP
Kylin一个cube分析工具，底层的数据就是存储在HBase之中，不少客户自己基于离线计算构建cube存储在hbase之中，满足在线报表查询的需求
消息/订单
在电信领域、银行领域，不少的订单查询底层的存储，另外不少通信、消息同步的应用构建在HBase之上
Feeds流
典型的应用就是xx朋友圈类似的应用，用户可以随时发布新内容，评论、点赞。
NewSQL
之上有Phoenix的插件，可以满足二级索引、SQL的需求，对接传统数据需要SQL非事务的需求
其他
存储爬虫数据、海量数据备份、短网址、…

发展历程

年份	重大事件
2006年11月	Google发布BigTable论文.
2007年10月	发布第一个可用的HBase版本，基于Hadoop 0.15.0
2008年1月	HBase称为Hadoop的一个子项目
2010年5月	HBase称为Apache的顶级项目

HBase 特点

强一致性读/写：HBASE不是“最终一致的”数据存储，它非常适合于诸如高速计数器聚合等任务
自动分块：HBase表通过Region分布在集群上，随着数据的增长，区域被自动拆分和重新分布
自动RegionServer故障转移
Hadoop/HDFS集成：HBase支持HDFS开箱即用作为其分布式文件系统
MapReduce：HBase通过MapReduce支持大规模并行处理，将HBase用作源和接收器
Java Client API：HBase支持易于使用的 Java API 进行编程访问
Thrift/REST API
块缓存和布隆过滤器：HBase支持块Cache和Bloom过滤器进行大容量查询优化
运行管理：HBase为业务洞察和JMX度量提供内置网页。

RDBMS与HBase的对比

关系型数据库

结构

数据库以表的形式存在
支持FAT、NTFS、EXT、文件系统
使用主键（PK）
通过外部中间件可以支持分库分表，但底层还是单机引擎
使用行、列、单元格

功能

支持向上扩展（买更好的服务器）
使用SQL查询
面向行，即每一行都是一个连续单元
数据总量依赖于服务器配置
具有ACID支持
适合结构化数据
传统关系型数据库一般都是中心化的
支持事务
支持Join

HBase

结构

以表形式存在
支持HDFS文件系统
使用行键（row key）
原生支持分布式存储、计算引擎
使用行、列、列蔟和单元格

功能

支持向外扩展
使用API和MapReduce、Spark、Flink来访问HBase表数据
面向列蔟，即每一个列蔟都是一个连续的单元
数据总量不依赖具体某台机器，而取决于机器数量
HBase不支持ACID（Atomicity、Consistency、Isolation、Durability）
适合结构化数据和非结构化数据
一般都是分布式的
HBase不支持事务，支持的是单行数据的事务操作
不支持Join

HDFS对比HBase

HDFS

HDFS是一个非常适合存储大型文件的分布式文件系统
HDFS它不是一个通用的文件系统，也无法在文件中快速查询某个数据

HBase

HBase构建在HDFS之上，并为大型表提供快速记录查找(和更新)
HBase内部将大量数据放在HDFS中名为「StoreFiles」的索引中，以便进行高速查找
Hbase比较适合做快速查询等需求，而不适合做大规模的OLAP应用

Hive对比Hbase

Hive

数据仓库工具
Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系，以方便使用HQL去管理查询
用于数据分析、清洗
Hive适用于离线的数据分析和清洗，延迟较高
基于HDFS、MapReduce
Hive存储的数据依旧在DataNode上，编写的HQL语句终将是转换为MapReduce代码执行

HBase

NoSQL数据库
是一种面向列存储的非关系型数据库。
用于存储结构化和非结构化的数据
适用于单表非关系型数据的存储，不适合做关联查询，类似JOIN等操作。
基于HDFS
数据持久化存储的体现形式是Hfile，存放于DataNode中，被ResionServer以region的形式进行管理
延迟较低，接入在线业务使用
面对大量的企业数据，HBase可以直线单表大量数据的存储，同时提供了高效的数据访问速度

总结Hive与HBase

Hive和Hbase是两种基于Hadoop的不同技术
Hive是一种类SQL的引擎，并且运行MapReduce任务
Hbase是一种在Hadoop之上的NoSQL 的Key/value数据库
这两种工具是可以同时使用的。就像用Google来搜索，用FaceBook进行社交一样，Hive可以用来进行统计查询，HBase可以用来进行实时查询，数据也可以从Hive写到HBase，或者从HBase写回Hive