关闭

开始玩hadoop12--hbase设计和解决方案

标签: 集群hadoophbase设计解决方案
226人阅读 评论(0) 收藏 举报
分类:

有固定模式或者固定数学模型---与---速度量大的瓶颈----Hbase


天生就是面向时间戳的查询

基于行键查询异常快速,最近的数据被放到内存里,和可能都不会有很多的io操作

分布式化解负荷 


模式设计:

浏览记录,中抽取最近访问的五个item

行键:userid

列族和列:book :bookid

充分利用分布式,可以用reverse key 和 hash 等技巧改造行键


推荐系统:

 两个表 一个是u-t表,一个是t-u表

u-t 表结构:行键为userid ,列族和列为thread:threadid

t-u 表结构:行键为threadid,列族和列为user:userid


查询 先在从 t-u 表从 threadid-》userid 再 u-t 表从userid -》threadid

在计算程序中实现去重和统计功能

优势:key -value 速度快 ,分布式 效率高


辅助索引:

 主表 :行键a+列族b,c,d:e

索引表: 行键e+列族 f:a


关系型数据库的切片和钻取的问题:复合行键的设计

前后查询条件并不独立

是有联系的,便于分布,有伸缩的查询


把userid 和 messageid 组合到一起的行键 userid-messageid 作为整个的id查询

hbase可以根据范围查询

定义起点和终点,把范围作为查询条件

0
0

猜你在找
【直播】机器学习&数据挖掘7周实训--韦玮
【套餐】系统集成项目管理工程师顺利通关--徐朋
【直播】3小时掌握Docker最佳实战-徐西宁
【套餐】机器学习系列套餐(算法+实战)--唐宇迪
【直播】计算机视觉原理及实战--屈教授
【套餐】微信订阅号+服务号Java版 v2.0--翟东平
【直播】机器学习之矩阵--黄博士
【套餐】微信订阅号+服务号Java版 v2.0--翟东平
【直播】机器学习之凸优化--马博士
【套餐】Javascript 设计模式实战--曾亮
查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:35658次
    • 积分:1081
    • 等级:
    • 排名:千里之外
    • 原创:73篇
    • 转载:19篇
    • 译文:0篇
    • 评论:3条
    最新评论