![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hbase
文章平均质量分 89
奔跑-起点
这个作者很懒,什么都没留下…
展开
-
Hbase常用shell
进入hbase命令行./hbase shell显示hbase中的表list创建user表,包含info、data两个列族create 'user', 'info1', 'data1'create 'user', {NAME => 'info1', VERSIONS => '3'}向user表中插入信息,row key为rk0001,列族info中添加name原创 2016-03-18 16:39:23 · 840 阅读 · 0 评论 -
大数据性能调优之HBase的RowKey设计
1 概述HBase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储,那Rowkey就是KeyValue的Key了,表示唯一一行。Rowkey也是一段二进制码流,最大长度为64KB,内容可以由使用的用户自定义。数据加载时,一般也是根据Rowke原创 2016-08-04 18:46:43 · 685 阅读 · 0 评论 -
Hindex--华为Hbase二级索引
华为在HBTC 2012上由其高级技术经理Anoop Sam John透露了其二级索引方案,这在业界引起极大的反响,甚至有人认为,如果华为早点公布这个方案,hbase的某些问题早就解决了。其核心思想是保证索引表和主表在同一个region server上。更新:目前该方案华为已经开源,详见:https://github.com/Huawei-Hadoop/hindex下面来对其方转载 2016-08-05 11:22:21 · 3232 阅读 · 0 评论 -
HBase的两种协处理器
1.起因(Why HBase Coprocessor)HBase作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(2.灵感来源( Source of Inspration)HBase协处理器的灵感来自于Jeff Dean 09年的演讲( P66-67)。它根据该演讲实现了类似于bigtable的协处理器,包原创 2016-10-27 14:42:35 · 1554 阅读 · 0 评论 -
读懂hadoop、hbase、hive、spark分布式系统架构
机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用于分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互不相关的他们却都是基于相同的hdfs存储和yarn资源管理,本文通过全套部署方法来让大家深入系统内部以充分理解分布式系统架构和他们之间的关系本文结构首先,我们来分别部署一套hado原创 2016-12-11 18:16:25 · 4019 阅读 · 1 评论 -
基于Solr的HBase多条件查询测试
http://www.cnblogs.com/chenz/articles/3229997.html背景:某电信项目中采用Hbase来存储用户终端明细数据,供前台页面即时查询。HBase无可置疑拥有其优势,但其本身只对rowkey支持毫秒级的快速检索,对于多字段的组合查询却无能为力。针对HBase的多条件查询也有多种方案,但是这些方案要么太复杂,要么效率太低,本文只对基于Sol转载 2016-11-24 14:27:18 · 502 阅读 · 0 评论 -
布隆过滤器 (Bloom Filter) 详解
布隆过滤器 (Bloom Filter)是由Burton Howard Bloom于1970年提出,它是一种space efficient的概率型数据结构,用于判断一个元素是否在集合中。在垃圾邮件过滤的黑白名单方法、爬虫(Crawler)的网址判重模块中等等经常被用到。哈希表也能用于判断元素是否在集合中,但是布隆过滤器只需要哈希表的1/8或1/4的空间复杂度就能完成同样的问题。布隆过滤器可以插入元原创 2017-03-17 14:55:32 · 499 阅读 · 0 评论 -
HBase 写优化之 BulkLoad 实现数据快速入库
1、为何要 BulkLoad 导入?传统的 HTableOutputFormat 写 HBase 有什么问题?我们先看下 HBase 的写流程:通常 MapReduce 在写HBase时使用的是 TableOutputFormat 方式,在reduce中直接生成put对象写入HBase,该方式在大数据量写入时效率低下(HBase会block写入,频繁进行flush,split,comp原创 2017-03-27 23:36:46 · 476 阅读 · 0 评论 -
SQL on HBase -- phoenix 之分页查询
最近一个项目中使用了Hbase,有一部分实时查询的需求。HBase本身只有一种排序,即按照rowkey的字典升序来排序数据。然而我们常常会碰到各种各样的排序需求。 对于简单的需求(比如项目确定只有某一种特定排序的需求),则可以通过对rowkey本身进行“组合”设计来达到目的。比如项目涉及到的数据为全球各类学校学生情况,需要按照在校人数的降序来展示数据,则可以采用“In原创 2017-03-16 18:42:22 · 1570 阅读 · 0 评论