HBase
文章平均质量分 86
菜菜的大数据开发之路
Java技术栈 AND 大数据开发,学习笔记, 拒绝水文
展开
-
HBase面试点_2, HBase热点问题(数据倾斜)和RowKey设计原则
一、前言HBase由于它存储和读写的高性能,在OLAP即时分析中发挥着重要的作用。而RowKey作为HBase的核心知识点,其设计势必会影响到数据在HBase中的分布,还会影响我们查询效率,可以说RowKey的设计质量关乎了HBase的质量。言归正传,对于关系型数据库,数据定位可以理解为“二维坐标”;但在HBase中,定位一条数据(即一个Cell)我们需要4个维度的限定:行键(RowKey)、列族(Column Family)、列限定符(Column Qualifier)、时间戳(Timestamp)。转载 2022-04-10 23:08:30 · 765 阅读 · 0 评论 -
HBase详细总结
1 HBase 浅析1.1 HBase 是啥HBase 是一款面向列存储,用于存储处理海量数据的 NoSQL 数据库。它的理论原型是Google 的 BigTable 论文。你可以认为 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase 的存储是基于HDFS的,HDFS 有着高容错性的特点,被设计用来部署在低廉的硬件上,基于 Hadoop 意味着 HBase 与生俱来的超强的扩展性和吞吐量。HBase 采用的时key/value的存储方式,这意味着,即使随着数据量的增大,转载 2022-04-10 23:05:31 · 5198 阅读 · 4 评论 -
HBase面试点_1, 为什么要有列族(ColumnFamily)?
在HBase中,数据是按Column Family来分割的,同一个Column Family下的所有列的数据放在一个文件(为简化下面的描述在此使用文件这个词,在HBase内部使用的是Store)中。为什么要这样子做呢?HBase本身的设计目标是支持稀疏表,而稀疏表通常会有很多列,但是每一行有值的列又比较少。如果不使用Column Family的概念,那么有两种设计方案:1.把所有列的数据放在一个文件中(也就是传统的按行存储)。那么当我们想要访问少数几个列的数据时,需要遍历每一行,读取整个表的数据,这转载 2022-04-04 16:51:42 · 1379 阅读 · 0 评论 -
三-2. HBase与Mapreduce交互(待补充)
3.2 HBase与MapReduce 交互3.2.0 前言在Hadoop中MR使用HBase,需要将HBase的jar包添加到Hadoop的类路径下,所以需要修改配置文件添加类路径。这源于一个思想:A要使用 B,那么A要有B的jar包。例如:在 Hive的安装中,Hive需要使用到MySQL数据库,所以将jdbc驱动包放到lib文件夹中HBase与MapReduce交互有三种方式(MR代表HDFS):1. HDFS从HBase表中读数据2. HDFS写数据到HBase表中3. HDFS从原创 2021-11-25 14:12:11 · 1508 阅读 · 1 评论 -
三-3, HBase 与 Hive 交互
三-3, HBase 与 Hive 交互3.1 HBase 与 Hive 的对比[Hive]梗概详述1. 数据仓库Hive 的本质其实就相当于将 HDFS 中已经存储的文件在 Mysql 中做了一个双射关系,以方便使用 HQL 去管理查询。2. 用于数据分析,清洗Hive 适用于离线的数据分析和清洗,延迟较高。3. 基于HDFS,MapReduceHive 存储的数据依旧在 DataNode 上,编写的 HQL 语句终将是转换为 MapReduce 代码执原创 2021-11-28 16:41:36 · 434 阅读 · 0 评论 -
三-1,使用 Java 操作 HBase API
文章目录三, HBase API 入门3.1 API 基本使用3.1.0 环境准备3.1.1 HBase API-->DDL操作1. 判断hbase中的某张表是否存在(admin.tableExists(TableName)) && 获取Configuration 对象 + 获取 HBaseAdmin 对象1.1 改进上一节-->静态代码块的恰当应用2. 创建表(admin.createTable(tableName, cf))3. 创建命名空间3.1.2 HBase API-原创 2021-11-25 11:02:12 · 3072 阅读 · 0 评论 -
二, HBase 架构进阶
二, HBase 进阶2.1 Hbase 的物理架构[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-merinCKM-1637333567573)(2021-11-16-17-00-49.png)]物理上, HBase是由三种类型的Server组成的主从式(master-slave)架构:1. RegionServer (HRigionServer)[概述]在HDFS中, DataNode负责存储实际数据, RegionServer主要负责响应用户的请求, 向H原创 2021-11-19 22:53:03 · 1294 阅读 · 0 评论 -
一, Habse 概述,安装和快速上手
一, HBase 简介0.起源HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用 Chubby作为协同服务,HBase利用Zookeeper作为协同服务。文章目录一, HBase 简介0.起源1原创 2021-11-14 17:27:38 · 2177 阅读 · 0 评论