海量数据实时计算系统在高并发互联网应用中的原理和实践
占超群(阿里巴巴)
2012-12-05 16:50
永泰大宴会厅C
演讲幻灯片:
海量数据实时计算系统在高并发互联网应用中的原理和实践[PDF]
随着互联网个性化时代的来临,很多需要通过多角度多属性进行实时分析的需求应运而生,如想即时统计最近任意几天、指定省份、指定地市、指定性别、指定年龄、指定频道的用户情况;如想结合用户的省份、地市、年龄、性别、偏好、最近购买情况给用户即时推荐最热门的商品;如想统计出多个关键词组合在省份、地市、年龄、性别、偏好等条件下的分布情况;而这些多维度多属性统计会存在无法穷举和无法通过离线计算进行预算的问题,如果固化业务逻辑则无法应对互联网业务的快速变化,在高并发互联网应用中解决这类问题则面临更大的挑战。
Garuda 是一个针对海量数据进行任意维度的密集计算与检索的支持高并发低延时的在线数据应用系统。目前在淘宝主站、SNS、数据魔方、淘宝指数等产品中得到了广泛应用,给这些产品提供高并发的实时计算服务;当前集群数据量已超过300亿条,平均每个请求涉及到300万条以上记录的实时多维度计算,请求响应时间小于50ms,QPS 超过300。本次分享将就Garuda设计原理、应用场景、历史变迁进行详细介绍,也将会介绍结合Redis、HBase的一些过渡方案的快速实现原理。