Hbase迎接电信TB级大数据洗礼之热点网站功能实践

转载 2013年12月03日 09:53:24
在今年年初的时候联通王志军院长就Hadoop在电信行业的大数据应用谈了自己的经验,随着3G网络的发展中国联通目前运营着世界上最大的CDMA网络,流量运营是中国联通一个重要特点。中国联通3G套餐当中流量占比非常非常大,中国联通3G用户流量使用情况也是非常可观的。那么在3G网络功能中上网冲浪占了很大的比例,去研究用户感兴趣的热点网站成为了行为分析中很有特点的一项功能,联通就可以根据这些网站信息推出增值服务,古人云:大浪淘沙始到金啊!
 
Hbase作为分布式的数据库集群是如何迎接大数据的洗礼呢!,我们之前使用的是Oracle数据库作为存储数据的基石,但当数据量迅猛上涨后许多的瓶颈马上就会呈现出来,大量的数据统计、分组、排序、过滤的操作对Oracle数据库性能真是一个不小的挑战,由于数据不能分布处理,数据的查询速度可想而知。现在我们使用了Hbase数据库就可以很好的解决上述的一系列问题。下面对如何实践设计“热点网站”功能给出了我的一些设想。
 
表设计:手机上网表 tel-net table 简称 t-n 表
 

 ROW Key                       COLUMN+CELL

 18977777777                    column=msisdn:*#06#,     timestamp=1351560318018, value=100                                            
 18977777777                    column=msisdn:cellphone,timestamp=1351563680951, value=iphone-5                              
 18977777777                    column=sites:http,       timestamp=1351560423739, value=www.dataguru.cn    登陆网站
 18977777777                    column=sites:name,       timestamp=1351560476264, value=lianshuchengjin                                
 18977777777                    column=user:age,         timestamp=1351560350911, value=28                                             
 18977777777                    column=user:name,        timestamp=1351560335833, value=leonarding  

 18866662222                    column=msisdn:*#06#,     timestamp=1351560560622, value=101                                            
 18866662222                    column=msisdn:cellphone, timestamp=1351560540173, value=iphone-4
 18866662222                    column=sites:http,       timestamp=1351560630783, value=www.dataguru.cn    登陆网站
 18866662222                    column=sites:name,       timestamp=1351560664387, value=lianshuchengjin
 18866662222                    column=user:age,         timestamp=1351560606783, value=26
 18866662222                    column=user:name,        timestamp=1351560585193, value=sunev_yu

 15911112222                    column=msisdn:*#06#,     timestamp=1351560873212, value=102
 15911112222                    column=msisdn:cellphone, timestamp=1351560851244, value=iphone-3
 15911112222                    column=sites:http,       timestamp=1351562148765, value=www.itpub.net     登陆网站
 15911112222                    column=sites:name,       timestamp=1351562171874, value=itpub
 15911112222                    column=user:age,         timestamp=1351562118827, value=100
 15911112222                    column=user:name,        timestamp=1351562102858, value=tigerfish

第一步:在一定时间范围内找到所有手机经常上网的网址。
第二步:在map-reduce程序中进行统计和排名(由于手机号就是随机型的因此可以均衡的打散到各个节点执行)。
第三步:汇总结果后,把排名前20的热点网站输出,运营商就可以找到这些热点网站进行合作推出更符合用户倾向的套餐,大把大把的敛money。
后续还可以开发:用户倾向性分析、TOPn大流量排名分析、用户行为分析等等诸如此类的功能。
欢迎大家一起积极讨论,共创Hbase美好未来

大数据查询——HBase读写设计与实践

作者 | 汪婷编辑 | Vincent导语:本文介绍的项目主要解决 check 和 opinion2 张历史数据表(历史数据是指当业务发生过程中的完整中间流程和结果数据)的在线查询。原实现基于 O...

阿里HBase超详实践总结 | 一文读懂大数据时代的结构化存储

前言 时间回到2011年,Hadoop作为新生事物,在阿里巴巴已经玩得风生水起,上千台规模的”云梯”是当时国内名声显赫的计算平台。 这一年,Hadoop的好兄弟HBase由毕玄大师带入淘宝...

大数据时代的结构化存储—HBase在阿里的应用实践

https://yq.aliyun.com/articles/70467?spm=5176.100238.goodcont.226.c8BxnO 摘要: # 前言 时间回到2011年,Had...

HBase在腾讯大数据的应用实践

随着腾讯产品与技术的发展,几乎任何一个与用户相关的在线业务的数据量都在亿级别,每日系统调用次数从亿到百亿,对海量数据的高效插入和快速读取变 得越来越重要。而传统关系型数据库模式固定、强调参照完整性、数...

阿里HBase超详实践总结 | 一文读懂大数据时代的结构化存储

HBase是一个开源的非关系型分布式数据库(NoSQL),基于谷歌的BigTable建模,是一个高可靠性、高性能、高伸缩的分布式存储系统,使用HBase技术可在廉价PC Server上搭建起大规模结构...
  • boonya
  • boonya
  • 2017年07月10日 17:44
  • 262

一个母婴电子商务网站的大数据平台及机器学习实践

母婴相对一般的电子商务网站有一些特点:第一个特点是商品周期短,在母婴网站上的商品,在线的时间不会超过5-7天,第二个是用户需求的变化快,在母婴行业,可能是用户的需求变化最快的领域,比如是用户处在怀孕当...

每天TB级数据处理,携程大数据高并发应用架构涅槃

原文链接:http://www.open-open.com/lib/view/open1474600301132.html 互联网二次革命的移动互联网时代,如何吸引用户、留住用户并深入挖掘用户价...

大数据时代,看看这些牛x的单位吧 - TB, PB, EB, ZB, YB, NB, DB, CB

Byte是计算机信息技术用于计量存储容量和传输容量的一种计量单位,1个字节等于8位二进制。目前我们常用计算存储空间的最小单位(其实还有更小的bit,1 Byte=8 bit)。 不过从硬盘或者叫做存...

Facebook大数据:每天处理逾25亿条内容和500TB数据

当地时间今日,Facebook在加州总部向几位记者透露了一些关于“大数据”的统计数字,诸如Facebook系统每天要处理25亿条消息、500+ TB的数据、用户点击Like按钮的次数达到27亿次、...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Hbase迎接电信TB级大数据洗礼之热点网站功能实践
举报原因:
原因补充:

(最多只允许输入30个字)