Hadoop 提取KPI 进行海量Web日志分析

最新推荐文章于 2021-07-20 09:49:22 发布

lzxyzq

最新推荐文章于 2021-07-20 09:49:22 发布

阅读量1.2w

点赞数 2

分类专栏： Hadoop 文章标签： hadoop web 系统架构架构设计访问量

本文链接：https://blog.csdn.net/lzxyzq/article/details/51388258

版权

本文介绍了如何使用Hadoop进行海量Web日志分析，提取关键性能指标（KPI），包括PV、IP、访问时间、来源和浏览器统计。通过MapReduce并行算法设计，实现了日志数据的高效处理，以及KPI系统架构的详细设计和程序开发。

摘要由CSDN通过智能技术生成

Hadoop 提取KPI 进行海量Web日志分析

Web日志包含着网站最重要的信息，通过日志分析，我们可以知道网站的访问量，哪个网页访问人数最多，哪个网页最有价值等。一般中型的网站(10W的PV以上)，每天会产生1G以上Web日志文件。大型或超大型的网站，可能每小时就会产生10G的数据量。

Web日志分析概述
需求分析：KPI指标设计
算法模型：Hadoop并行算法
架构设计：日志KPI系统架构
程序开发：MapReduce程序实现

1. Web日志分析概述

Web日志由Web服务器产生，可能是Nginx, Apache, Tomcat等。从Web日志中，我们可以获取网站每类页面的PV值（PageView，页面访问量）、独立IP数；稍微复杂一些的，可以计算得出用户所检索的关键词排行榜、用户停留时间最高的页面等；更复杂的，构建广告点击模型、分析用户行为特征等等。

在Web日志中，每条日志通常代表着用户的一次访问行为，例如下面就是一条nginx日志：

222.68.172.190 - - [18/Sep/2013:06:49:57 +0000] "GET /images/my.jpg HTTP/1.1" 200 19939
 "http://www.angularjs.cn/A00n" "Mozilla/5.0 (Windows NT 6.1)
 AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36"

拆解为以下8个变量

remote_addr: 记录客户端的ip地址, 222.68.172.190
remote_user: 记录客户端用户名称, –
time_local: 记录访问时间与时区, [18/Sep/2013:06:49:57 +0000]
request: 记录请求的url与http协议, “GET /images/my.jpg HTTP/1.1”
status: 记录请求状态,成功是200, 200
body_bytes_sent: 记录发送给客户端文件主体内容大小, 19939
http_referer: 用来记录从那个页面链接访问过来的, “http://www.angularjs.cn/A00n”
http_user_agent: 记录客户浏览器的相关信息, “Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36”

注：要更多的信息，则要用其它手段去获取，通过js代码单独发送请求，使用cookies记录用户的访问信息。

利用这些日志信息，我们可以深入挖掘网站的秘密了。

少量数据的情况

少量数据的情况(10Mb,100Mb,10G)，在单机处理尚能忍受的时候，我可以直接利用各种Unix/Linux工具，awk、grep、sort、join等都是日志分析的利器，再配合perl, python，正则表达工，基本就可以解决所有的问题。

例如，我们想从上面提到的nginx日志中得到访问量最高前10个IP，实现很简单：

~ cat access.log.10 | awk '{a[$1]++} END {for(b in a) print b"\t"a[b]}' | sort -k2 -r | head -n 10
163.177.71.12   972
101.226.68.137  972
183.195.232.138 971
50.116.27.194   97
14.17.29.86     96
61.135.216.104  94
61.135.216.105  91
61.186.190.41   9
59.39.192.108   9
220.181.51.212  9

海量数据的情况

当数据量每天以10G、100G增长的时候，单机处理能力已经不能满足需求。我们就需要增加系统的复杂性，用计算机集群，存储阵列来解决。在Hadoop出现之前，海量数据存储，和海量日志分析都是非常困难的。只有少数一些公司，掌握着高效的并行计算，分步式计算，分步式存储的核心技术。

Hadoop的出现，大幅度的降低了海量数据处理的门槛，让小公司甚至是个人都能力，搞定海量数据。并且，Hadoop非常适用于日志分析系统。

2.需求分析：KPI指标设计

下面我们将从一个公司案例出发来全面的解释，如何用进行海量Web日志分析，提取KPI数据。

案例介绍

某电子商务网站，在线团购业务。每日PV数100w，独立IP数5w。用户通常在工作日上午10:00-12:00和下午15:00-18:00访问量最大。日间主要是通过PC端浏览器访问，休息日及夜间通过移动设备访问较多。网站搜索浏量占整个网站的80%，PC用户不足1%的用户会消费，移动用户有5%会消费。

通过简短的描述，我们可以粗略地看出，这家电商网站的经营状况，并认识到愿意消费的用户从哪里来，有哪些潜在的用户可以挖掘，网站是否存在倒闭风险等。

KPI指标设计

PV(PageView): 页面访问量统计
IP: 页面独立IP的访问量统计
Time: 用户每小时PV的统计
Source: 用户来源域名的统计
Browser: 用户的访问设备统计

从商业的角度，个人网站的特征与电商网站不太一样，没有转化率，同时跳出率也比较高。从技术的角度，同样都关注KPI指标设计。

3.算法模型：Hadoop并行算法

并行算法的设计：

PV(PageView): 页面访问量统计

Map过程{key:request,value:1}
Reduce过程{key:request,value:求和(sum)}

IP: 页面独立IP的访问量统计

Map: {key:request,value:remote_addr}
Reduce: {key:request,value:去重再求和(sum(unique))}

Time: 用户每小时PV的统计

Map: {key:time_local,value:1}
Reduce: {key:time_local,value:求和(sum)}

Source: 用户来源域名的统计

Map: {key:http_referer,value:1}
Reduce: {key:http_referer,value:求和(sum)}

Browser: 用户的访问设备统计

Map: {key:http_user_agent,value:1}
Reduce: {key:http_user_agent,value:求和(sum)}

4.架构设计：日志KPI系统架构

这里写图片描述

上图中，左边是Application业务系统，右边是Hadoop的HDFS, MapReduce。

1.日志是由业务系统产生的，我们可以设置web服务器每天产生一个新的目录，目录下面会产生多个日志文件，每个日志文件64M。
2.设置系统定时器CRON，夜间在0点后，向HDFS导入昨天的日志文件。
3.完成导入后，设置系统定时器，启动MapReduce程序，提取并计算统计指标。
4.完成计算后，设置系统定时器，从HDFS导出统计指标数据到数据库，方便以后的即使查询。

这里写图片描述

上面这幅图，我们可以看得更清楚，数据是如何流动的。蓝色背景的部分是在Hadoop中的，接下来我们的任务就是完成MapReduce的程序实现。

5.程序开发2：MapReduce程序实现

开发流程：

对日志行的解析
Map函数实现
Reduce函数实现
启动程序实现

1). 对日志行的解析

新建文件：org.apache.hadoop.mr.kpi
这里写图片描述

整体代码

package org.apache.hadoop.mr.kpi;

import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.HashSet;
import java.util.Locale;
import java.util.Set;

public class KPI {
   

    /**
     * 20160512
     * @author yue
     */
    private String remote_addr; //记录客户端的IP地址
    private String remote_user;   //记录客户端用户名称，忽略属性“-”
    private String time_local;  //记录访问时间与时区
    private String request;  //记录请求的URL和http协议
    private String status;  //记录请求状态，成功是200
    private String body_bytes_sent;  //记录发送给客户端文件主体内容大小
    private String http_referer; //用来记录从哪个页面链接访问过来的
    private String http_user_agent; //记录客户浏览器的相关信息
    private boolean valid = true ; //判断数据是否合法

    private static KPI parser(String line){
        System.out.println(line);
        KPI kpi = new KPI();
        String[] arr = line.split(" ");
        if (arr.length>11){
            kpi.setRemote_addr(arr[0]);
            kpi.setRemote_user(arr[1]);
            kpi.setTime_local(arr[3].substring(1));
            kpi.setRequest(arr[6]);
            kpi.setStatus(arr[8]);
            kpi.setBody_bytes_sent(arr[9]);
            kpi.setHttp_referer(arr[10]);

            if(arr.length>12){
                kpi.setHttp_user_agent(arr[11] + " " + arr[12]);
            } else {
                kpi.setHttp_user_agent(arr[11]);
            }

            if(Integer.parseInt(kpi.getStatus()) >= 400){
                //大于400，http錯誤
                kpi.setValid(false);
            }
        }else{
            kpi.setValid(false);
        }
        return kpi;
    }
    /**
     * 按page的pv分类
     * pageview:页面访问量统计
     * @return
     */
    public static KPI filterPVs(String line){
        KPI kpi = parser(line);
        Set<String> pages = new HashSet<String>();
        pages.add("/about/");
        pages.add("/black-ip-clustor/");
        pages.add("/cassandra-clustor/");
        pages.add("/finance-rhive-repurchase/");
        pages.add("/hadoop-familiy-roadmap/");
        pages.add("/hadoop-hive-intro/");
        pages.add("/hadoop-zookeeper-intro/");
        pages.add("/hadoop-mahout-roadmap/");

        if(!pages.contains(kpi.getRequest())){
            kpi.setValid(false);
        }
        return kpi;
    }
    /**
     * 按page的独立IP分类
     * @return
     */
    public