hadoop学习-海量日志分析(提取KPI指标)

本文介绍了如何利用Hadoop对Web日志进行分析,包括提取PV、IP、访问时间等KPI指标。通过MapReduce程序,分别实现了页面访问量、独立IP数、每小时访问量和用户浏览器统计的计算。详细步骤涵盖日志解析、MapReduce设计与实现,并提供了Eclipse启动程序的方法和源代码链接。
摘要由CSDN通过智能技术生成

1、Web日志分析

从Web日志中,我们可以获取网站各类页面的PV值(PageView,页面访问量),访问IP;或者是用户停留时间最长的页面等等,更复杂的,可以分析用户行为特征。

在Web日志中,每条日志都代表用户的一次访问行为,以下面的一条日志为例子:

60.208.6.156 - - [18/Sep/2013:06:49:48 +0000] "GET /wp-content/uploads/2013/07/rcassandra.png HTTP/1.0" 200 185524 "http://cos.name/category/software/packages/" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36"
可以 拆分为8个变量:

remote_addr:60.208.6.156 //用户IP地址

remote_user:- //用户名称

time_local:[18/Sep/2013:06:49:48 +0000] //记录访问时间

request:"GET /wp-content/uploads/2013/07/rcassandra.png HTTP/1.0" //记录访问的url与http协议

status:200 //记录请求状态,成功是200

body_bytes_sent:185524 //记录发给客户端内容的大小

http_referer:"http://cos.name/category/software/packages/" //记录从哪个页面访问过来的

http_user_agent:"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36" //记录客户浏览器的信息

2、KPI指标设计

一般的KPI指标可以设置为:

PV:页面访问量统计

IP:页面独立IP访问数量统计

Time:每小时用户访问数量统计

Source:用户来源域名

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值