Hbase迎接电信TB级大数据洗礼之热点网站功能实践

转载 2013年12月03日 09:53:24
在今年年初的时候联通王志军院长就Hadoop在电信行业的大数据应用谈了自己的经验,随着3G网络的发展中国联通目前运营着世界上最大的CDMA网络,流量运营是中国联通一个重要特点。中国联通3G套餐当中流量占比非常非常大,中国联通3G用户流量使用情况也是非常可观的。那么在3G网络功能中上网冲浪占了很大的比例,去研究用户感兴趣的热点网站成为了行为分析中很有特点的一项功能,联通就可以根据这些网站信息推出增值服务,古人云:大浪淘沙始到金啊!
 
Hbase作为分布式的数据库集群是如何迎接大数据的洗礼呢!,我们之前使用的是Oracle数据库作为存储数据的基石,但当数据量迅猛上涨后许多的瓶颈马上就会呈现出来,大量的数据统计、分组、排序、过滤的操作对Oracle数据库性能真是一个不小的挑战,由于数据不能分布处理,数据的查询速度可想而知。现在我们使用了Hbase数据库就可以很好的解决上述的一系列问题。下面对如何实践设计“热点网站”功能给出了我的一些设想。
 
表设计:手机上网表 tel-net table 简称 t-n 表
 

 ROW Key                       COLUMN+CELL

 18977777777                    column=msisdn:*#06#,     timestamp=1351560318018, value=100                                            
 18977777777                    column=msisdn:cellphone,timestamp=1351563680951, value=iphone-5                              
 18977777777                    column=sites:http,       timestamp=1351560423739, value=www.dataguru.cn    登陆网站
 18977777777                    column=sites:name,       timestamp=1351560476264, value=lianshuchengjin                                
 18977777777                    column=user:age,         timestamp=1351560350911, value=28                                             
 18977777777                    column=user:name,        timestamp=1351560335833, value=leonarding  

 18866662222                    column=msisdn:*#06#,     timestamp=1351560560622, value=101                                            
 18866662222                    column=msisdn:cellphone, timestamp=1351560540173, value=iphone-4
 18866662222                    column=sites:http,       timestamp=1351560630783, value=www.dataguru.cn    登陆网站
 18866662222                    column=sites:name,       timestamp=1351560664387, value=lianshuchengjin
 18866662222                    column=user:age,         timestamp=1351560606783, value=26
 18866662222                    column=user:name,        timestamp=1351560585193, value=sunev_yu

 15911112222                    column=msisdn:*#06#,     timestamp=1351560873212, value=102
 15911112222                    column=msisdn:cellphone, timestamp=1351560851244, value=iphone-3
 15911112222                    column=sites:http,       timestamp=1351562148765, value=www.itpub.net     登陆网站
 15911112222                    column=sites:name,       timestamp=1351562171874, value=itpub
 15911112222                    column=user:age,         timestamp=1351562118827, value=100
 15911112222                    column=user:name,        timestamp=1351562102858, value=tigerfish

第一步:在一定时间范围内找到所有手机经常上网的网址。
第二步:在map-reduce程序中进行统计和排名(由于手机号就是随机型的因此可以均衡的打散到各个节点执行)。
第三步:汇总结果后,把排名前20的热点网站输出,运营商就可以找到这些热点网站进行合作推出更符合用户倾向的套餐,大把大把的敛money。
后续还可以开发:用户倾向性分析、TOPn大流量排名分析、用户行为分析等等诸如此类的功能。
欢迎大家一起积极讨论,共创Hbase美好未来

相关文章推荐

HBase在腾讯大数据的应用实践

最近正好看到CSDN上一直在宣传腾讯云: 就在不久前,支付宝、携程、蓝翔就因不同原因出现了网络故障,紧随其后艺龙网,途牛网、去哪儿网纷纷遭到大流量DDoS攻击,并造成短暂的业务中断。其中携程...

大数据时代的结构化存储—HBase在阿里的应用实践

https://yq.aliyun.com/articles/70467?spm=5176.100238.goodcont.226.c8BxnO 摘要: # 前言 时间回到2011年,Had...

HBase在腾讯大数据的应用实践

随着腾讯产品与技术的发展,几乎任何一个与用户相关的在线业务的数据量都在亿级别,每日系统调用次数从亿到百亿,对海量数据的高效插入和快速读取变 得越来越重要。而传统关系型数据库模式固定、强调参照完整性、数...

阿里HBase超详实践总结 | 一文读懂大数据时代的结构化存储

HBase是一个开源的非关系型分布式数据库(NoSQL),基于谷歌的BigTable建模,是一个高可靠性、高性能、高伸缩的分布式存储系统,使用HBase技术可在廉价PC Server上搭建起大规模结构...

每天TB级数据处理,携程大数据高并发应用架构涅槃

原文链接:http://www.open-open.com/lib/view/open1474600301132.html 互联网二次革命的移动互联网时代,如何吸引用户、留住用户并深入挖掘用户价...

Facebook大数据:每天处理逾25亿条内容和500TB数据

当地时间今日,Facebook在加州总部向几位记者透露了一些关于“大数据”的统计数字,诸如Facebook系统每天要处理25亿条消息、500+ TB的数据、用户点击Like按钮的次数达到27亿次、...

王家林最受欢迎的一站式云计算大数据和移动互联网解决方案课程 V1(20140809)之Hadoop企业级完整训练:Rocky的16堂课(HDFS&MapReduce&HBase&Hive&Zookee

Hadoop是云计算的事实标准软件框架,是云计算理念、机制和商业化的具体实现,是整个云计算技术学习中公认的核心和最具有价值内容。 如何从企业级开发实战的角度开始,在实际企业级动手操作中深入浅出并循序...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)