统计PV、UV的新武器——Aviator

    本文的主角Aviator,是一个高性能、轻量级的基于java实现的表达式引擎,它动态地将String类型的表达式编译成Java ByteCode并交给JVM执行。
    Aviator支持所有的关系运算符和算术运算符,不支持位运算,同时支持表达式的优先级,优先级跟Java的运算符一样,并且支持通过括号来强制优先级。

    Aviator很适合PV、UV的计算。它比Drools轻量,执行效率高,比正则表达式的表达能力强。灵活运用Aviator可以使得很多数据统计的代码变得更通用。

    一般来说,常见的PV和UV的统计,都是如下的计算流程:

    在Map阶段:

    1、过滤掉不符合条件的数据

    2、符合条件的数据输出key,1

    在Reduce阶段:

    1、要么累加,要么求平均

    以上的三个步骤中,Map阶段的两个步骤可以通过Aviator脚本变成动态的,Map的第二个阶段输出的数据的Value可以设计为固定格式的,例如:{pv,一般为1}|{响应时间}|{ip},那么Reduce阶段的一个步骤就可以计算出来PV、UV和平均响应时间。举几个栗子:

    例子1、排除.css,.js和.png后缀的请求之后,计算应用的PV,UV

    Map阶段:

    a、按照如下规则过滤: (row[keyMap.uri] =~ /.*\.css/) && (row[keyMap.uri] =~ /.*\.js/) && ((row[keyMap.uri] =~ /.*\.png/))

    b、输出:pv|app|{扩展名字},1|20|{IP}

    Reduce阶段:

    a、累加得到PV,{IP}放入Map,Map的size即为UV

    例子2、排除.css,.js和.png后缀的请求之后,计算各个HTTP Status Code的PV

    Map阶段:

    a、按照如下规则过滤: (row[keyMap.uri] =~ /.*\.css/) && (row[keyMap.uri] =~ /.*\.js/) && ((row[keyMap.uri] =~ /.*\.png/))

    b、输出:pv|app|row[keyMap.status],1|20|{IP}。其中row[keyMap.status]是用于动态地从一行日志数据中取值的Aviator脚本

    Reduce阶段:

    a、累加得到PV,{IP}放入Map,Map的size即为UV

    基于以上的设计,再加几个配套的数据库表,就可以实现一个MR计算n种规则的PV、UV和平均响应时间了。

    P.S. 有兴趣的话,可以琢磨一下平均响应时间如何计算 :D

    

转载于:https://my.oschina.net/u/2288883/blog/1798068

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值