python 用正则处理日志实例

 

前提
    了解正则基本语法
 
 
 1 import re
 2 with open('top10_xiaozhuang_net.log','r') as f1:    #读取日志文件
 3  
 4     subject=f1.readlines()
 5     with open('slice_log.log','w') as f2:      #将切割结果存储到slice_log.log
 6         for line in subject:
 7  #line:
 8 2019-04-15 00:00:00 192.168.254.253 info LinkProof: 14/04/2019 22:51:53 14/04/2019 22:52:48 114. 80.179.132 210. 29.144.  1  211.65.207.189    UDP 17224    53 0.0.0.0   OTHER         84,
 9 14/04/2019 22:51:53 14/04/2019 22:52:48 120.221.144.117 210. 29.144.  1  211.65.207.189    UDP 38883    53 0.0.0.0   OTHER         80,
10 14/04/2019 22:51:53 14/04/2019 22:52:48 112. 47. 12.154 210. 29.144.  1  211.65.207.189    UDP 34323    53 0.0.0.0   OTHER         76,
11             #将log切块,使得结果成为结构统一的块
12             result = re.split(
13                 #用问号和"...LinkProof"和","来切
14                 r""".*LinkProof:\s+|\,
15                 """,
16                 line.strip('\n'), 0, re.VERBOSE)
17                 
18  
19  
20             #result : ['', '14/04/2019 22:51:53 14/04/2019 22:52:48 120.221.145.  4 210. 29.144.  1  211.65.207.189    UDP 64777    53 0.0.0.0   OTHER        305','...','']  lenth = 9
21             #用切片去除头尾的空
22             for block in result[1:8]:
23                 f2.write(block+'\n')
24 #将日期和时间分开取,正则表达式更简单,效率会更高
25 date1 = r"\S*"  #反取,取不为空格的
26 time1 = r"\S*"
27 date2 = r"\S*"
28 time2 = r"\S*"
29 # time1 = r"\d{2}/\d{2}/\d{4}\s+(?:\d+\:){2}\d{2}"
30  
31 #取IP,因为存在IP里存在空格,所以用相对复杂的正则保证每次取到
32 ip1 = r"(?:\d{1,3}\.\s*){3}\d{1,3}"
33 ip2 = r"(?:\d{1,3}\.\s*){3}\d{1,3}"
34 ip3 = r"(?:\d{1,3}\.\s*){3}\d{1,3}"
35 protocal = r"\w{3}"
36 sizelike = r"\d*"
37 portlike = r"\d*"
38 ip4 = r"\S*"
39 type = r"\w*"
40 num = r"\d*"
41 #正则预编译
42 log_pattern = re.compile(r"(%s)\s+(%s)\s+(%s)\s+(%s)\s+(%s)\s+(%s)\s+(%s)\s+(%s)\s+(%s)\s+(%s)\s+(%s)\s+(%s)\s+(%s)" \
43                          %(date1,time1,date2,time2,ip1,ip2,ip3,protocal,sizelike,portlike,ip4,type,num),re.VERBOSE)
44 l = []
45 with open('slice_log.log','r') as f2:  #
46         lines = f2.readlines()
47  
48         for line in lines:
49             dic = {}
50             line_matchs = log_pattern.match(line)
51             if line_matchs != None:
52                 all_groups = line_matchs.groups() 
53                 dic["date1"] = all_groups[0]+" "+all_groups[1]
54                 dic["date2"] = all_groups[2]+" "+all_groups[3]
55                 
56                 #去掉IP里的空格
57                 dic["ip1"] = all_groups[4].replace(" ","")
58                 dic["ip2"] = all_groups[5].replace(" ","")
59                 dic["ip3"] = all_groups[6].replace(" ","")
60                 
61                 dic["protocal"] = all_groups[7]
62                 dic["sizelike"] = all_groups[8]
63                 dic["portlike"] = all_groups[9]
64                 dic["ip4"] = all_groups[10].replace(" ", "")
65                 dic["type"] = all_groups[11]
66                 dic["num"] = all_groups[12]
67  
68                 l.append(dic)
69                 # print((all_groups))
70                
71  
72 for item in l:
73     print(item)
74  

 

得到的结果:
 
 
可再参考文章:

转载于:https://www.cnblogs.com/huangguoming/p/10737398.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python使用正则表达式的方法是通过re库来实现的。re库是Python中提供的用于处理正则表达式的库。可以使用re库中的不同方法来实现不同的功能。常用的方法包括match()、findall()等。 match()方法用于在字符串的开头匹配正则表达式。它返回一个匹配对象,包含匹配的结果。如果匹配成功,则返回匹配对象;否则返回None。可以通过匹配对象的span()方法获取匹配的起始位置和结束位置,通过group()方法获取匹配的字符串。例如,对于字符串s = 'python123python666python888',使用re.match('python', s)可以匹配到'python',返回的匹配对象的span()方法返回(0, 6),group()方法返回'python'。 findall()方法用于在字符串中找到正则表达式所匹配的所有子串,并返回一个列表。如果没有找到匹配的,则返回空列表。例如,对于字符串s = '1python123python666python888',使用re.findall('python', s)可以匹配到三个'python',返回的列表为['python', 'python', 'python']。 通过使用re库的不同方法,可以灵活地使用正则表达式来进行字符串的匹配和处理。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Python-如何使用正则表达式](https://blog.csdn.net/weixin_47221728/article/details/116357287)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [python使用正则表达式](https://blog.csdn.net/a15608445683/article/details/124650730)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值