使用Apache等日志做统计的弊端:
1,日志结构不易解析
2,HTTP头部参数可能缺失
3,客户端缓存导致漏记
4,混有无效的错误请求
5,日志的写并发不好,导致错记
统计系统的特点
1,高并发频繁写
2,原子性、非事务
难点:
1,少错漏
2,快入库
3,速统计
数据入库的解决方法:
1,单条日志有原子性,一致性要求不高
2,增加缓冲层,批量延迟入库
3,缓冲分为内存和文件两种,也可以将两种模式结合
4,在各级之间还可以调整流量,对内容进行校验纠错
统计需求的难点:
1,GROUP BY
2,ORDER BY
3,COUNT DISTINCT
4,JOIN
数据按热度分级
1,热数据放内存,做实时决策
2,温数据放在分布式文件系统,做模型迭代
1,日志结构不易解析
2,HTTP头部参数可能缺失
3,客户端缓存导致漏记
4,混有无效的错误请求
5,日志的写并发不好,导致错记
统计系统的特点
1,高并发频繁写
2,原子性、非事务
难点:
1,少错漏
2,快入库
3,速统计
数据入库的解决方法:
1,单条日志有原子性,一致性要求不高
2,增加缓冲层,批量延迟入库
3,缓冲分为内存和文件两种,也可以将两种模式结合
4,在各级之间还可以调整流量,对内容进行校验纠错
统计需求的难点:
1,GROUP BY
2,ORDER BY
3,COUNT DISTINCT
4,JOIN
数据按热度分级
1,热数据放内存,做实时决策
2,温数据放在分布式文件系统,做模型迭代
3,冷数据高压缩率后存储,很少使用
参考:http://hugozhu.myalert.info/2013/02/28/the-evolution-of-online-advertsing-system.html
http://wenku.baidu.com/view/50a57cd17f1922791688e8c3.html