python实现用hadoop的map/reduce对web日志进行统计

日志格式

61.160.241.107 - - [23/Aug/2011:22:00:00 +0800] "GET /map.php?gid=38&sid=75&user=14717213&roleid=490711&time=1314108000&user_yx=736959&levafee11f0d1bacbfecbb631192 HTTP/1.1" 200 5 "-" "Java/1.6.0_23"

以对IP 的访问量进行统计为例

map脚本map.py 清洗日志数据


#!/usr/bin/python
import sys
import re
debug = False#设置lzo文件偏移位
if debug:
        lzo = 0
else:
        lzo = 1
for line in sys.stdin:
    ipaddress=re.compile(r'([\d.]*) (- - \[[^[\]]*\] "[^ ]* /)([^ ]*)([^ ]*\.php\?)([^ ]*)')
    match=ipaddress.match(line.split('\t',1)[lzo])
    if match:
        ip=match.group(1)
        #tb=match.group(2)
        #url=match.group(4)
        print ip


reduce脚本red.py 对ip数进行统计

#!/usr/bin/python
#-*-coding:UTF-8 -*-
import sys
import os
import string
res = {}
for line in sys.stdin:
    skey=line[0:-1]
    if(res.has_key(skey)==False):
        res[skey]=0
    res[skey]=res[skey]+1
for key in res.keys():
     print key+"\t"+str(res[key])

将map.py  red.py脚本修改为可执行权限

# chmod +x *.py

在shell中进行调试

# cat 1.log|/home/map.py|/home/red.py

在hadoop streaming中执行mapreduce作业

# hadoop jar /opt/mapr/hadoop/hadoop-0.20.2/contrib/streaming/hadoop-0.20.2-dev-streaming.jar -file /home/map.py -file /home/red.py  -mapper /home/map.py -reducer /homej/red.py -input /test/a.log.-output /test/test2

其中input 与output 路径都为hdfs文件系统路径  如果将输出文件进行压缩的话需要加参数 -jobconf mapred.output.compress=true -jobconf mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec

如果输入文件格式为lzo压缩格式的话  需要指定参数-inputformat com.hadoop.mapred.DeprecatedLzoTextInputFormat  注意的是在hadoop中使用lzo的话,偏移位需要加1     




  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值