python删除匹配行_python – 匹配多个正则表达式组并删除它们

最新推荐文章于 2023-12-04 21:30:00 发布

weixin_39934869

最新推荐文章于 2023-12-04 21:30:00 发布

阅读量1k

点赞数

文章标签： python删除匹配行

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39934869/article/details/111447406

版权

我收到了一个文件,我想从中提取有用的数据.该文件的格式如下：

LINE: 1

TOKENKIND: somedata

TOKENKIND: somedata

LINE: 2

TOKENKIND: somedata

LINE: 3

等等…

我想要做的是删除LINE：和行号以及TOKENKIND：所以我只剩下一个字符串,其中包含’somedata somedate somedata …’

我正在使用Python来执行此操作,使用正则表达式(我不确定是否正确)来匹配我要删除的文件的位.

我的问题是,如何让Python匹配多个正则表达式组并忽略它们,将我的正则表达式与我的输出字符串不匹配的任何内容添加到我的输出字符串中？我当前的代码如下所示：

import re

import sys

ignoredTokens = re.compile('''

(?P \s+ ) |

(?P LINE:\s[0-9]+ ) |

(?P [A-Z]+: )

''', re.VERBOSE)

tokenList = open(sys.argv[1], 'r').read()

cleanedList = ''

scanner = ignoredTokens.scanner(tokenList)

for line in tokenList:

match = scanner.match()

if match.lastgroup not in ('WHITESPACE', 'LINE', 'TOKEN'):

cleanedList = cleanedList + match.group(match.lastindex) + ' '

print cleanedList

最佳答案

import re

x = '''LINE: 1

TOKENKIND: somedata

TOKENKIND: somedata

LINE: 2

TOKENKIND: somedata

LINE: 3'''

junkre = re.compile(r'(\s*LINE:\s*\d*\s*)|(\s*TOKENKIND:)', re.DOTALL)

print junkre.sub('', x)

weixin_39934869

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python删除匹配行_python – 匹配多个正则表达式组并删除它们

我收到了一个文件,我想从中提取有用的数据.该文件的格式如下：LINE: 1TOKENKIND: somedataTOKENKIND: somedataLINE: 2TOKENKIND: somedataLINE: 3等等…我想要做的是删除LINE：和行号以及TOKENKIND：所以我只剩下一个字符串,其中包含’somedata somedate somedata …’我正在使用Python来执行此...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。