开始玩hadoop12--hbase设计和解决方案

原创 2015年07月07日 22:13:53

有固定模式或者固定数学模型---与---速度量大的瓶颈----Hbase


天生就是面向时间戳的查询

基于行键查询异常快速,最近的数据被放到内存里,和可能都不会有很多的io操作

分布式化解负荷 


模式设计:

浏览记录,中抽取最近访问的五个item

行键:userid

列族和列:book :bookid

充分利用分布式,可以用reverse key 和 hash 等技巧改造行键


推荐系统:

 两个表 一个是u-t表,一个是t-u表

u-t 表结构:行键为userid ,列族和列为thread:threadid

t-u 表结构:行键为threadid,列族和列为user:userid


查询 先在从 t-u 表从 threadid-》userid 再 u-t 表从userid -》threadid

在计算程序中实现去重和统计功能

优势:key -value 速度快 ,分布式 效率高


辅助索引:

 主表 :行键a+列族b,c,d:e

索引表: 行键e+列族 f:a


关系型数据库的切片和钻取的问题:复合行键的设计

前后查询条件并不独立

是有联系的,便于分布,有伸缩的查询


把userid 和 messageid 组合到一起的行键 userid-messageid 作为整个的id查询

hbase可以根据范围查询

定义起点和终点,把范围作为查询条件

HBase作为存储方案

HBase存储特点 * Client 1. 包含访问HBase的接口,并维护cache来加快对HBase的访问,比如region的位置信息。 * Zookeeper: 1. 选举集群中的Mas...

Hbase性能问题以及解决方案

Hbase是一个相对较复杂的分布式系统,并发写入的性能非常高。然而,分布式系统从结构上来讲,也相对较复杂,模块繁多,各个模块之间也很容易出现一些问题,所以对像HBase这样的大型分布式系统来说,优化系...

Trafodion成熟的SQL on HBase解决方案

简介Trafodion是一个开源Apache项目。它提供了一个成熟的企业级SQL on HBase解决方案。Trafodion的主要设计思想是处理operational类型的工作负载,或者是传统的OL...

王家林最受欢迎的一站式云计算大数据和移动互联网解决方案课程 V1(20140809)之Hadoop企业级完整训练:Rocky的16堂课(HDFS&MapReduce&HBase&Hive&Zookee

Hadoop是云计算的事实标准软件框架,是云计算理念、机制和商业化的具体实现,是整个云计算技术学习中公认的核心和最具有价值内容。 如何从企业级开发实战的角度开始,在实际企业级动手操作中深入浅出并循序...

hbase热点问题(数据倾斜)解决方案---rowkey散列和预分区设计

Hbase的表会被划分为1....n个Region,被托管在RegionServer中。Region二个重要的属性:Startkey与EndKey表示这个Region维护的rowkey的范围,当我们要...

hbase热点问题(数据倾斜)解决方案---rowkey散列和预分区设计

Hbase的表会被划分为1....n个Region,被托管在RegionServer中。Region二个重要的属性:Startkey与EndKey表示这个Region维护的rowkey的范围,当我们要...

Hbase 热点(数据倾斜)问题解决方案---rowkey散列和预分区设计

转载自http://student-lp.iteye.com/blog/2309075                                                      ...

Kylin修改默认hbase namespace命名空间default的解决方案

问题及背景:同一用户的三家公司的物理集群合并,合并后用dataspace+kerberos控制不同公司对集群资料的访问权限,三家公司分别使用独立的kerberos票据访问,特定的namespace,而...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:开始玩hadoop12--hbase设计和解决方案
举报原因:
原因补充:

(最多只允许输入30个字)