网页日志分析项目

目录

项目需求

数据分析

项目规划

项目流程

项目展示


 

项目需求

当用户进入公司web进行点击,会触发一系列的事件,这些事件对应着相应的日志。我们需要收集用户访问日志,进行清洗、储存、展示。根据上面一系列操作我们可以对用户的注册人数、访问人数、访问深度、以及收欢迎的一些专题进行分析。

数据分析

样例数据:

192.168.92.34-09/Dec/2019:14:00:03 +0800"GET /?uid=c05ee40bdbe097172d42c429a875198d&country= HTTP/1.1"200555"https://www.baidu.com""Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36""-"
192.168.92.30-09/Dec/2019:14:00:07 +0800"GET /?uid=d21269342374e876285a470b3d98f8bc&country=CN HTTP/1.1"200555"""Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0""-"
192.168.92.33-09/Dec/2019:14:00:10 +0800"GET /?uid=34b9c898c00058436f3483be7fc4c7e8&country= HTTP/1.1"200555"""Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0""-"
192.168.92.32-09/Dec/2019:14:00:18 +0800"GET /?uid=e234f04ca6d616cca9eeda430df853c7&country=US HTTP/1.1"200555"https://www.baidu.com""Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30729; rv:11.0) like Gecko""-"
192.168.92.34-09/Dec/2019:14:00:18 +0800"GET /?uid=bbeb22f625107a24cef2eee179a14ee6&country=CN HTTP/1.1"200555"https://www.msn.cn/zh-cn""-""-"
192.168.92.32-09/Dec/2019:14:00:19 +0800"GET /?uid=4c23435f92cd987d982d02e7fc63565c&country= HTTP/1.1"200555"https://www.yahoo.com""-""-"
192.168.92.31-09/Dec/2019:14:00:20 +0800"GET /?uid=6f288475d5191e20c221b4e273c7859c&country=MM HTTP/1.1"200555"""-""-"
192.168.92.30-09/Dec/2019:14:00:21 +0800"GET /?uid=87b1a7a0ddbd6c46cf11899bc0d78b7d&country=CN HTTP/1.1"200555"http://www.google.cn""Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36""-"
192.168.92.33-09/Dec/2019:14:00:22 +0800"GET /?uid=bdbce86387dab2cfecc78669a6200f31&country=CN HTTP/1.1"200555"http://www.lycos.com""Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36""-"
192.168.92.32-09/Dec/2019:14:00:25 +0800"GET /?uid=752a2fb4d058f04e215372c97fe623fb&country=CN HTTP/1.1"200555"https://www.aol.com""Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36""-"
192.168.92.34-09/Dec/2019:14:00:25 +0800"GET /?uid=527e66793d2ff7865a2122297f5c44b1&country=CN HTTP/1.1"200555"https://www.baidu.com""Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0""-"
192.168.92.30-09/Dec/2019:14:00:25 +0800"GET /?uid=e234f04ca6d616cca9eeda430df853c7&country=CN HTTP/1.1"200555"""Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134""-"
192.168.92.32-09/Dec/2019:14:00:26 +0800"GET /?uid=1ddcd3ac3e6db860f810ed70997ac6a8&country= HTTP/1.1"200555"https://www.aol.com""Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36""-"
192.168.92.33-09/Dec/2019:14:00:32 +0800"GET /?uid=6ec27f18562b8166a6df83aefd940d72&country=RU HTTP/1.1"200555"http://www.lycos.com""Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30729; rv:11.0) like Gecko""-"
192.168.92.34-09/Dec/2019:14:00:35 +0800"GET /?uid=fd3174f4e3f829a12b060f6c3738d908&country=CN HTTP/1.1"200555"http://www.lycos.com""Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0""-"
192.168.92.33-09/Dec/2019:14:00:41 +0800"GET /?uid=8ec0b505122295b81df5f56f71b6c19d&country=CN HTTP/1.1"200555"http://www.google.cn""Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0""-"

nginx日志格式配置

$remote_addr^A$remote_user^A$time_local^A$request^A$status^A$body_bytes_sent^A$request_body^A$http_referer^A$http_user_agent^A$http_x_forwarded_fo
remote_addr【1】:哪个ip请求的。 数据清洗的时候,将ip转化成具体的地区。或者用hive UDF 函数 ;

time_local【3】:本地请求时间。需要把英国格式转换成标准格式。

request【4】:get提交的数据。 筛选请求目标url, 统计海牛部落首页的最受欢迎top5, 海牛的topics 最受欢迎的top10;

request_body【7】:post提交的数据,由于作了脱敏处理,post提交的数据就不能处理了(POST请求的数据是带密码的,我们不能泄露密码所以就省略了这部分的数据)。

http_referer【8】: 谁请求的。 是外部请求  还是内部请求

内部请求:正常的请求地址,应该是从 海牛学院的官网跳转过来的

外部请求:需要具体分析,有可能是爬虫

http_user_agent【9】:用户代理,统计浏览器、移动端的使用情况, 统计爬虫的种类。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值