【hbase】hbase学习总结

最新推荐文章于 2024-04-03 11:29:28 发布

HNUJSY

最新推荐文章于 2024-04-03 11:29:28 发布

阅读量2.2k

点赞数

文章标签： hbase big data 大数据

本文链接：https://blog.csdn.net/HNUPCJ/article/details/122637502

版权

HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规模数据集时，可以使用HBase。

特点：
大
面向列：面向列表（簇）的存储和权限控制，列（簇）独立检索。
稀疏：对于为空（NULL）的列，并不占用存储空间。
无模式：每一行都有一个可以排序的主键和任意多的列
数据多版本：可以有多个版本，版本号就是单元格插入时的时间戳。
数据类型单一：HBase中的数据都是字符串，没有类型。
高并发和实时处理数据
HBase能提供实时计算服务主要原因是由其架构和底层的数据结构决定的，即由LSM-Tree + HTable(region分区) + Cache决定——客户端可以直接定位到要查数据所在的HRegion server服务器，然后直接在服务器的一个region上查找要匹配的数据，并且这些数据部分是经过cache缓存的。
Hbase基本概念
RowKey：是Byte array，是表中每条记录的“主键”，方便快速查找，Rowkey的设计非常重要。
Column Family：列族，拥有一个名称(string)，包含一个或者多个相关列
Column：属于某一个columnfamily，familyName:columnName，每条记录可动态添加
Version Number：类型为Long，默认值是系统时间戳，可由用户自定义
Value(Cell)：Byte array
Hbase物理模型
每个column family存储在HDFS上的一个单独文件中，空值不会被保存。
Key 和 Version number在每个 column family中均有一份；
HBase 为每个值维护了多级索引，即：<key, column family, column name, timestamp>
物理存储:
1、Table中所有行都按照row key的字典序排列；
2、Table在行的方向上分割为多个Region；
3、Region按大小分割的，每个表开始只有一个region，随着数据增多，region不断增大，当增大到一个阈值的时候，region就会等分会两个新的region，之后会有越来越多的region；
4、Region是Hbase中分布式存储和负载均衡的最小单元，不同Region分布到不同RegionServer上。
spark操作hbase demo

import org.apache.hadoop.hbase.{HConstants, HBaseConfiguration}
import org.apache.hadoop.hbase.client.Put
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapred.TableOutputFormat
import org.apache.hadoop.hbase.util.Bytes
import org.apache.hadoop.mapred.JobConf
import org.apache.spark.{SparkConf, SparkContext}

object SparkToHBase {
  def main(args: Array[String]) {
    if (args.length < 1) {
      System.err.println("Usage: SparkToHBase <input file>")
      System.exit(1)
    }
 
    val conf = new SparkConf().setAppName("SparkToHBase")
    val sc = new SparkContext(conf)
 
    val input = sc.textFile(args(0))
 
    //创建HBase配置
    val hConf = HBaseConfiguration.create()
    hConf.set(HConstants.ZOOKEEPER_QUORUM, "www.iteblog.com:2181")
 
    //创建JobConf，设置输出格式和表名
    val jobConf = new JobConf(hConf, this.getClass)
    jobConf.setOutputFormat(classOf[TableOutputFormat])
    jobConf.set(TableOutputFormat.OUTPUT_TABLE, "iteblog")
 
    val data = input.map { item =>
      val Array(key, value) = item.split("\t")
      val rowKey = key.reverse
      val put = new Put(Bytes.toBytes(rowKey))
      put.add(Bytes.toBytes("f1"), Bytes.toBytes("info"), Bytes.toBytes(value))
      (new ImmutableBytesWritable, put)
    }
    //保存到HBase表
    data.saveAsHadoopDataset(jobConf)
    sc.stop()
  }
}

HNUJSY

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【hbase】hbase学习总结

HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规模数据集时，可以使用HBase。特点：大面向列：面向列表（簇）的存储和权限控制，列（簇）独立检索。稀疏：对于为空（NULL）的列，并不占用存储空间。无模式：每一行都有一个可以排序的主键和任意多的列数据多版本：可以有多个版本，版本号就是单元格插入时的时间戳。数据类型单一：HBase中的数据都是字符串，没有类型。高并发和实时处理数据HBase能提供实时计算服务主要原因是由其架构和底层的数据结构决
复制链接

扫一扫