HBase基础笔记

最新推荐文章于 2024-07-25 09:48:00 发布

donger__chen

最新推荐文章于 2024-07-25 09:48:00 发布

阅读量309

点赞数

分类专栏： HBase 文章标签：大数据 hbase

本文链接：https://blog.csdn.net/donger__chen/article/details/109478122

版权

3 篇文章 0 订阅

订阅专栏

HBASE

1. hbase特点

2. hbase的基本概念

命名空间(namespace)
hbase没有databse的概念，namespace类似database；
hbase自带两个namespace：hbase和default，hbase用户存储hbase的内置表(metadata)，default用于存储创建时未指定namespace的表
列族(column family)
一个或多个列的集合，底层存储时，相同列族的列会被存在同一个地方(hdfs的同一个文件夹)；
创建表时必须制定列族，之后可追加
列
与关系型数据库的列类似，在hbase中，一个列属于且只属于一个列族；但每行数据同一个列族中的列可以不一样
Row Key
类似关系型数据库的主键，可唯一定位出一行数据；存入hbase的数据会自动以字典序排列，查询时只能通过row key进行检索
hbase只支持一列未做row_key，假设利用sqoop从mysql导入到hbase，需要将多个列作为row_key，可使用参数–hbase-row-key “column1,column2,…”。虽然可操作，但是hbase会以”_"将其拼接成一列。
Region
hbase会按row key对存储的数据进行切片，一个切片即一个region，同一个region的数据会被存放在同一个region server上，当同一个region的数据量过大（默认256m），会将region切分成两个新的region

图片来源：尚硅谷视频教程

Store
一个region由一个或多个store组成，table有几个列族就有几个store；一个store由一个memstore和0个或多个storefile组成
MemStore
memStore是放在内存里的，保存修改数据；当memStore的大小达到了一个阈值(默认64)，memStore会被flush到文件，形成快照。
StoreFile
memStore内存中的数据写到文件后就是StoreFile，flush一个生成一个新的storeFile，storeFile底层以HFile的格式保存
HFile
HFile是HBase中key-value数据的存储格式，是hadoop的二进制文件，一个storeFile对于一个HFile，而HFile存储于hdfs

==HBase可以实现秒级响应的随即写操作，其主要原因就是通过记录用户的操作记录，然后打上时间戳，在读的时候根据时间戳返回最新的数据（HBase的高效随即写其实是“假”的） ==

3. HBase基本架构

4. HBase语法

建表
1. create ‘tablename’ ,‘info’
  创建了一张名为tablename的表，该表有一个名为info的列族
2. create ‘tablename’,‘info1’,‘info2’
  创建了一张名为tablename的表，该表有名为info1和info2的列族
3. create ‘namespace_name:table_name’,‘info’
  将表建在名称为namespace的命名空间下
查看表
1. list
  列出所有命名空间下的所有表
2. desc/describe ‘tablename’
  查看表结构
删除表
1. drop ‘tablename’
  drop前需要先disable表
  disable ‘tablename’
更改表
1. 更改version
  alter ‘tablename’ ,{NAME => ‘列族’,VERSIONS=>3}
  HBase允许对同一个row key的相同位置存放多个版本的数据，通过VERSIONS来控制保存的版本数量

5. 常用命令

  # 法1 hbase shell下
  count 'table_name'    #该方法效率慢
  #法2  linux shell下
  hbase org.apache.hadoop.hbase.mapreduce.RowCounter 'table_name'   #效率远高于法1

关注

专栏目录