网站流量日志数据采集
nginx:是一个高性能的HTTP和反向代理web服务器。可以记录HTTP操作信息,通过它可以获取需要的信息。
前端开发
- 确定要收集的信息以及途径
- 确定埋点代码
- 编写javascript日志收集脚本
埋点:网站分析的一种常用的数据采集方法,在页面中插入一段javascript代码。
js自调用匿名函数(function(){}());
webserver | javascript |
---|---|
访问时间 | 域名 |
IP | URL |
浏览客户端 | 页面标题 |
状态码 | 分辨率 |
发送内容量 | 颜色深度 |
Referrer | |
客户端语言 | |
网站标识 |
1. 通过内置javascript对象收集信息
2. 自调用匿名函数收集的信息
3. 将以上收集到的信息按预定格式解析并拼接
4. 一般通过js脚本创建一个Image对象,将Image对象的src属性指向后端脚本并携带参数,实现跨域请求
后端开发
- 设计日志格式
- 编写后端脚本
- 做日志切分
1. 解析http请求参数得到信息
2. 从Web服务端获取一些客户端无法获取的信息
3. 将信息按格式写入log
4. 生成图片作为响应内容并将响应头的Content-type设为image
5. 在响应头设置一些需要的cookie信息,方便跟踪。
集成测试
- 在网站页面进行埋点
- 检测日志数据