![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hbase
啊策策
通吃java, 大数据.
展开
-
HBase Shell操作、HBase创建表、添加数据、查看表数据、操作列簇、删除表 05
1. HBase Shell操作连接集群hbase shell原创 2019-04-21 19:30:02 · 31794 阅读 · 0 评论 -
HBase导入海量数据、使用BuckLoa向HBase中导入数据 13
前言博主之前简单介绍了,HBase写入数据的原理与HBase表在hdfs上的存储结构,还搞了搞HBase提供的导入工具ImportTsv, 想了解更多ImportTsv使用,请戳HBase导入海量数据之使用ImportTsv向HBase中导入大量数据今天咱们了解下Buckload如下图示,充分解释了Buckload的导入原理,通过MapReduce程序在hdfs中直接生成HFlie文件,然后...原创 2019-04-25 09:17:24 · 687 阅读 · 0 评论 -
HBase的写入流程、HBase的读取流程(HBase查询路由)、-root-表、.meta表 04
1. HBase的写入流程client通过zk, 找到对应的hregionServer数据会先写入到hlog和memStore中memStore满了后,会flush到一个StoreFile.storeFile达到一定阀值(比如64M), 触发compact,会合并成一个大的storeFile, 同时进行版本合并和数据删除多个storeFile合并成一个StroeFile, 当这个St...原创 2019-04-20 16:43:17 · 593 阅读 · 0 评论 -
Hbase各组件功能、HMaster、HRegionServer、HRegion、Hbase和Zookeeper关系、HBase如何恢复宕机前数据 03
1. Hbase整体结构2. Hbase文字层级结构详解clientZKHMasterHRegionServerHRegion–>一个table有多个HRegion,一个HRegion默认为10gHStore–>对应一个列族,一个HRegion有多个HStoreMemStore(内存)–>Flush到StoreFileStoreFile(磁盘)HF...原创 2019-04-20 16:00:34 · 3031 阅读 · 0 评论 -
Hbase原理、Hbase列式存储特点、Hbase表结构 02
1. 数据库分类关系型数据库 Mysql、Oracle非关系型数据库 Redis、Mangdb、Hbase面向主题的是数据仓库,面向事务的是数据库原创 2019-04-19 16:12:52 · 1551 阅读 · 0 评论 -
HBase应用场景 12
千万并发、PB存储、KV基础存储、动态列、强同步、稀疏表、SQL、二级索引对象存储: 我们知道不少的头条类、新闻类的新闻、网页、图片存储在HBase之中,一些病毒公司的病毒库也是存储在HBase之中时序数据: HBase之上有OpenTSDB模块,可以满足时序类场景的需求推荐画像: 特别是用户的画像(特征),是一个比较大的稀疏矩阵,蚂蚁的风控就是构建在HBase之上时空数据: 主要是轨...原创 2019-04-24 09:57:30 · 302 阅读 · 0 评论 -
HBase的rowkey设计原则、HBase避免热点 11
1. 唯一性原则每条数据的rowkey必须唯一,不重复2. 长度原则rowkey尽量越短越好,一般不要超过16字节原因数据的持久化文件HFlie中是按照KeyValue存储的,如果rowkey过长,比如超过100字节,1000w行数据,光rowkey就要占用100*1000w=10亿个字节,将近1G数据,这样会极大影响HFlie的存储效率MemStore将缓存部分数据到内存,如果ro...原创 2019-04-24 09:30:16 · 616 阅读 · 0 评论 -
HBase海量数据入库方案、使用ImportTSV向HBase中导入海量数据、HBase的写入流程、HBase在HDFS中的存储结构、LoadIncrementalHFiles命令 10
前言数据导入HBase时,若是小批量的数据,使用HBase提供的API就可以满足需求。如果要灌入大量数据,使用API的方式导入,会占用大量的RegionServer的资源,影响该RegionServer上其他表的查询。为了解决这种问题,HBase官方提供了两种基于MapReduce的大量数据导入的方法:ImportTSVBuckLoad1. HBase导入数据的写入流程客...原创 2019-04-23 17:53:09 · 3505 阅读 · 8 评论 -
HBase预分区、HBase Shell预分区、HBase Shell读取split文件预分区、HBase Java API预分区 09
1. HBase的预分区概念HBase表被创建时,只有1个Region,当一个Region过大达到默认的阀值时(默认10GB大小),HBase中该Region将会进行split,分裂为2个Region,以此类推。表在进行split的时候,会耗费大量的资源,频繁的分区对HBase的性能有巨大的影响。所以,HBase提供了预分区功能,即用户可以在创建表的时候对表按照一定的规则分区。预分区是默认...原创 2019-04-22 19:13:45 · 3138 阅读 · 0 评论 -
HBase Bloom过滤器、哈希函数、哈希值、位数组 08
1. 哈希函数哈希函数的概念:将任意大小的数据转换成特定大小的数据函数,转换后的数据称为哈希值或哈希编码。下面是一副示意图:可以明显的看到,原始数据经过哈希函数的映射后称为了一个个的哈希编码,数据得到压缩。哈希函数是实现哈希表和布隆过滤器基础。2. 判定一个元素是否存在于集合中如何查看一个东西是否在有大量数据的池子里面。通常的做法有如下几种思路:数组链表树、平衡二叉树、Trie...原创 2019-04-22 18:26:25 · 525 阅读 · 0 评论 -
HBase Rowkey设计指南、rowkey设计案例剖析、什么是热点问题 15
前言如何评判一张HBase表设计的好不好,重点看它的rowkey设计的好不好,所以HBase的rowkey设计是非常重要的。但是rowkey到底是什么?特点如下:类似于mysql、oracle中的主键,用于标示唯一的行;完全是由用户指定的一串不重复、唯一的字符串;hbase中的数据永远是根据rowkey的字典顺序来排序的1. HBase中Rowkey的作用读写数据时通过rowke...原创 2019-04-26 20:21:11 · 824 阅读 · 0 评论 -
HBase的过滤器、RowKe过滤器、列簇过滤器、字段过滤器、值过滤器、参考值过滤器、比较运算符、比较器 07
1. HBase的过滤器如下5种RowFilter 基于RowKey的过滤FamilyFilte 基于列簇的过滤QualifierFilter 基于字段的过滤ValueFilter 基于值的过滤DependentColumnFilter 参考值过滤2. HBase的比较运算符LESS 匹配小于设定值的值LESS_OR_EQUAL 匹配小于或等于设定值的值EQUAL 匹配...原创 2019-04-22 12:10:39 · 857 阅读 · 0 评论 -
HBase Java API、连接HBase、创建表、添加数据put、获取数据get、全表扫描scan 06
1. 导入pom依赖<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.3.1</version></dependenc...原创 2019-04-22 09:57:07 · 6353 阅读 · 0 评论 -
Hbase集群部署、Hbase启动异常时间同步 01
1. Hbase集群部署1.1 Hbase部署整体大纲Hbase安装包下载地址操作步骤说明;下载安装包修改配置文件hbase-env.sh拷贝hadoop配置文件分发配置文件启动集群1.2 下载安装包wget http://mirrors.hust.edu.cn/apache/hbase/1.3.1/hbase-1.3.1-bin.tar.gztar -zxvf ...原创 2019-04-17 09:27:56 · 420 阅读 · 0 评论 -
hbase如何构建二级索引 14
1. 现有实例数据现有原始hbase表如下,rowkey: hbase的主键F1:列簇F1C1:列簇F1下的列C1F2:列簇F2C2:列簇F2下的列C2C11:列簇F1,列名C1对应的列值C11C21:列簇F2,列名C2对应的列值C212. 需求查询hbase中,符合条件F1:C1=C11的F2:C2的值3. 分析如实查询就像mysql中,select name f...原创 2019-04-25 14:56:16 · 586 阅读 · 0 评论