广告系统设计之分析

使用Apache等日志做统计的弊端:

1,日志结构不易解析
2,HTTP头部参数可能缺失
3,客户端缓存导致漏记
4,混有无效的错误请求
5,日志的写并发不好,导致错记

统计系统的特点
1,高并发频繁写
2,原子性、非事务

难点:
1,少错漏
2,快入库
3,速统计


数据入库的解决方法:
1,单条日志有原子性,一致性要求不高
2,增加缓冲层,批量延迟入库
3,缓冲分为内存和文件两种,也可以将两种模式结合
4,在各级之间还可以调整流量,对内容进行校验纠错

统计需求的难点:
1,GROUP BY
2,ORDER BY
3,COUNT DISTINCT
4,JOIN

数据按热度分级
1,热数据放内存,做实时决策
2,温数据放在分布式文件系统,做模型迭代

3,冷数据高压缩率后存储,很少使用


参考:http://hugozhu.myalert.info/2013/02/28/the-evolution-of-online-advertsing-system.html

           http://wenku.baidu.com/view/50a57cd17f1922791688e8c3.html


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值