人生苦短,我用Python,从入门到放弃,在到学会装X,这里是一份装X指南,教你如何用Python分析网站日志数据教程。
在使用Python分析网站日志之前,请安装openpyxl模块。
下面贴出分析网站日志的轮子:
# -*- coding: utf-8 -*-
from openpyxl import Workbook
import json
import re
import time
# 日志格式,支持NGINX 来源:www.daxianseo.cn
log_format = '^\[(?P.*?)\+[:\d]+\]\[(?P\d+)\]\[(?P.*?)\] '\
'"(?P.*?) (?P.*?) (?:.*?)" ' \
'"(?P.*?)" "(?P.*?)"'
# 搜索引擎蜘蛛
spider_user_agent = {
'百度': re.compile('(Baiduspider(?:[-\w]+)?/[\d\.]+)', re.I),
'搜狗': re.compile('(Sogou \w+ spider/[\d\.]+)', re.I),
'神马': re.compile('(YisouSpider)', re.I),
'360': re.compile('(360Spider)', re.I),
'谷歌':