HBase学习笔记

第1章 HBase 简介

HBase定义:HBase 是一种分布式、可扩展、支持海量数据存储的NoSQL 数据库。

HBase 数据模型

逻辑上是一张表,底层物理存储是kv

  • HBase 逻辑结构:row_key(逻辑上一行的key),列族(column family),列(column qualifier),region(将高表进行横向切分),cell(每个rowkey中每个列族下的列和其值为一个cell)
    • row_key唯一,是每行数据的key;可以有多个列族(目录);每个列族内有多个列,列也是数据信息;每个row_key的数据可以拥有不同的列,所以说列也是数据;row_key很多时会将数据划分成不同的region存储(目录),每个region内有所有的列族,每个列族目录下有切分的数据
  • HBase 物理存储结构:逻辑上一个row_key有多个cell,存储时row_key和每一个cell为一行数据,存储为storeFile,存储时会有:row_key,column family,column qualifier,timestamp,type,value
    • timestamp:每个值的版本根据timestamp确定,type为其类型,对于删除操作有delete、deleteCoumn、deleteFamily,value为cell的值
  • 数据模型:
    • NameSpace:类似于数据库,每个命名空间下有多个表,HBase有两个自带的:hbase和default
    • Region:类似于表的概念,定义表时只需要声明列族,列(字段)可以动态的改变
    • Row:表中每一行数据都有一个row_key和多个列组成,数据安装row_key的字典顺序存储,查询时只能按照rowkey查询
    • Column:每个列由列族和列限定符进行限定
    • TimeStamp:用于标识不同的版本
    • Cell:rowkey,column family,column qualifier,timestamp唯一确定的单元,cell中数据没有类型,全部以字节码存储

基本架构

  • region server:region的管理者,每个节点是一个region server。实现类HRegionServer,主要作用是对数据(get,put,delete)和region(splitRegion、compactRegion)的操作
  • master:所有region server的管理者,实现类HMaster,主要作用是对表的操作(create,delete,alter元数据),对region server的操作(分配regions到每个region server,监控region server的状态,负载均衡和故障转移)
  • zookeeper:做master的高可用,region server的监控,元数据的入口,集群配置的维护
  • hdfs:提供底层存储

第2章 HBase快速入门

HBase安装部署

  • zk正常部署:bin/zkServer.sh start,单节点启动,使用脚本zk.sh start集群启动
  • hadoop正常部署:sbin/start-dfs.sh,sbin/start-yarn.sh
  • hbase:解压,修改hbase-env.sh,hbase-site.xml,regionservers
  • 软连接hadoop配置文件到 HBase,core-site.xml,hdfs-site.xml
  • 分发,启动:start-hbase.sh,关闭:stop-hbase.sh

HBase Shell操作

基本操作

  • 进入客户端:bin/hbase shell
  • 查看帮助命令:help
  • 查看所有表:list

表的操作

  • 创建表:create
  • 插入数据:put
  • 扫描表:scan
  • 查看表结构:describe
  • 更新指定字段的数据:get
  • 查看指定行或指定列族:列的数据:get
  • 统计表数据行数:count
  • 删除数据:delete(删除某一列,)、deleteall(删除rowkey的所有数据)、truncate(清空表数据,配置也没了!)
  • 删除表:diable、drop
  • 变更表信息:alter

第3章 HBase 进阶

架构原理

  • storeFile:实际存储的物理文件,表目录 -- region目录 -- 多个列族目录 -- 多个storeFile,有序的HFile格式文件
  • MemStore:写缓存,数据线存储在MemStore中,排序后到达刷写时机写到HFile
  • WAL:数据先写都Write-Ahead-Logfile中,再写到MemStore中,系统出现故障时可以通过这个日志文件重建(源码中先写到内存在写到WAL,但是trycatchfinally保证了WAL和内存中数据一致,如果没有写入WAL成功,会回滚)

写流程

  • client先访问zk,获取hbase:meta表位与哪个region server
  • 访问对应的region server,获取hbase:meta表,根据请求的namespace:table/rowkey查询出在哪个region server,并缓存table的region信息到客户端的meta cache方便下次访问
  • 与目标region server通信
  • 将数据写入wal
  • 将数据写入对应的memstore,数据在memstore按rowkey排序
  • 向客户端发送ack
  • 等待memstore刷写时机,将数据刷写到HFile

MemStore Flush

  • 某个memstore的大小到达128M,其所在region的所有memstore都会刷写;当达到了128*4会阻止往memstore写
  • 当region server中所有memstore总大小到达heap_size*0.4*0.95,region server会按照memstore的大小排序,依次刷写;当达到了heap_size*0.4会阻止网memstore写
  • 到达自动刷写时间,也会触发memstore flush,默认1个小时

读流程

  • client先访问zk,获取hbase:meta表位与哪个region server
  • 访问对应的region server,获取hbase:meta表,根据请求的namespace:table/rowkey查询出在哪个region server,并缓存table的region信息到客户端的meta cache方便下次访问
  • 与目标region server通信
  • 分别在block cache,memstore,和storeFile查询目标数据,并进行合并
  • 将查询到的数据块缓存到block cache
  • 将合并后的结果返回给客户端

StoreFile Compaction

  • Minor Compaction,将临近的小文件合并成大文件,不会清理过期和删除的数据
  • Major Compaction,将所有的HFile合并成一个大文件,并清理过期和删除的数据

Region Split

  • 0.94版本之前:某个store下的所有storeFile文件大小超过阈值就会拆分
  • 之后:总大小超过min(R^2 * "hbase.hregion.memstore.flush.size", hbase.hregion.max.filesize"),min(R^2 * 128M, 10G)

第4章 HBase API

  • 客户端向HBase写数据,读数据
  • 使用MR将本地文件导入HBase,Dimporttsv.columns= HBASE _ROW_ info:name,info:color fruit
  • 使用MR将hdfs数据写入HBase
  • 使用MR将HBase表导入到另一个表,也就是MR可以读写HBase数据
  • 与 Hive的集成:创建关联表,数据放在hbase,hive不可以使用load加载数据,hbase无法识别

第5章 HBase优化

  • 高可用
  • 预分区
  • rowkey设计
  • 内存优化
  • 基础优化

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ava实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),可运行高分资源 Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现
C语言是一种广泛使用的编程语言,它具有高效、灵活、可移植性强等特点,被广泛应用于操作系统、嵌入式系统、数据库、编译器等领域的开发。C语言的基本语法包括变量、数据类型、运算符、控制结构(如if语句、循环语句等)、函数、指针等。下面详细介绍C语言的基本概念和语法。 1. 变量和数据类型 在C语言中,变量用于存储数据,数据类型用于定义变量的类型和范围。C语言支持多种数据类型,包括基本数据类型(如int、float、char等)和复合数据类型(如结构体、联合等)。 2. 运算符 C语言中常用的运算符包括算术运算符(如+、、、/等)、关系运算符(如==、!=、、=、<、<=等)、逻辑运算符(如&&、||、!等)。此外,还有位运算符(如&、|、^等)和指针运算符(如、等)。 3. 控制结构 C语言中常用的控制结构包括if语句、循环语句(如for、while等)和switch语句。通过这些控制结构,可以实现程序的分支、循环和多路选择等功能。 4. 函数 函数是C语言中用于封装代码的单元,可以实现代码的复用和模块化。C语言中定义函数使用关键字“void”或返回值类型(如int、float等),并通过“{”和“}”括起来的代码块来实现函数的功能。 5. 指针 指针是C语言中用于存储变量地址的变量。通过指针,可以实现对内存的间接访问和修改。C语言中定义指针使用星号()符号,指向数组、字符串和结构体等数据结构时,还需要注意数组名和字符串常量的特殊性质。 6. 数组和字符串 数组是C语言中用于存储同类型数据的结构,可以通过索引访问和修改数组中的元素。字符串是C语言中用于存储文本数据的特殊类型,通常以字符串常量的形式出现,用双引号("...")括起来,末尾自动添加'\0'字符。 7. 结构体和联合 结构体和联合是C语言中用于存储不同类型数据的复合数据类型。结构体由多个成员组成,每个成员可以是不同的数据类型;联合由多个变量组成,它们共用同一块内存空间。通过结构体和联合,可以实现数据的封装和抽象。 8. 文件操作 C语言中通过文件操作函数(如fopen、fclose、fread、fwrite等)实现对文件的读写操作。文件操作函数通常返回文件指针,用于表示打开的文件。通过文件指针,可以进行文件的定位、读写等操作。 总之,C语言是一种功能强大、灵活高效的编程语言,广泛应用于各种领域。掌握C语言的基本语法和数据结构,可以为编程学习和实践打下坚实的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值