网站数据采集简述

本文简述了网站流量日志数据采集的过程,包括利用nginx记录HTTP操作,前端使用javascript编写日志收集脚本进行埋点,以及后端设计日志格式、处理收集的信息并做日志切分。集成测试确保数据采集的准确性。
摘要由CSDN通过智能技术生成

网站流量日志数据采集

nginx:是一个高性能的HTTP和反向代理web服务器。可以记录HTTP操作信息,通过它可以获取需要的信息。

前端开发

  • 确定要收集的信息以及途径
  • 确定埋点代码
  • 编写javascript日志收集脚本

埋点:网站分析的一种常用的数据采集方法,在页面中插入一段javascript代码。

js自调用匿名函数(function(){}());

webserverjavascript
访问时间域名
IPURL
浏览客户端页面标题
状态码分辨率
发送内容量颜色深度
Referrer
客户端语言
网站标识

1. 通过内置javascript对象收集信息
2. 自调用匿名函数收集的信息
3. 将以上收集到的信息按预定格式解析并拼接
4. 一般通过js脚本创建一个Image对象,将Image对象的src属性指向后端脚本并携带参数,实现跨域请求

后端开发

  • 设计日志格式
  • 编写后端脚本
  • 做日志切分

1. 解析http请求参数得到信息
2. 从Web服务端获取一些客户端无法获取的信息
3. 将信息按格式写入log
4. 生成图片作为响应内容并将响应头的Content-type设为image
5. 在响应头设置一些需要的cookie信息,方便跟踪。

集成测试

  • 在网站页面进行埋点
  • 检测日志数据
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值