python匹配到的行号_python regex,在多行中匹配,但仍希望得到行号

本文介绍了一个函数,该函数扩展了`re.finditer`,返回匹配项及其对应的行号。通过查找所有匹配项,循环遍历换行符,建立一个映射表,从而高效地获取每个匹配项所在的行号。
摘要由CSDN通过智能技术生成

这可以通过以下方式相当有效地完成:查找所有匹配项

循环换行,将{offset: line_number}映射存储到最后一个匹配。

对于每一个匹配项,预先反向查找第一个换行符的偏移量,并在地图中查找它的行号。

这样可以避免每次匹配都倒数到文件的开头。

以下函数类似于re.finditerdef finditer_with_line_numbers(pattern, string, flags=0):

'''

A version of 're.finditer' that returns '(match, line_number)' pairs.

'''

import re

matches = list(re.finditer(pattern, string, flags))

if not matches:

return []

end = matches[-1].start()

# -1 so a failed 'rfind' maps to the first line.

newline_table = {-1: 0}

for i, m in enumerate(re.finditer(r'\n', string), 1):

# don't find newlines past our last match

offset = m.start()

if offset > end:

break

newline_table[offset] = i

# Failing to find the newline is OK, -1 maps to 0.

for m in matches:

newline_offset = string.rfind('\n', 0, m.start())

line_number = newline_table[newline_offset]

yield (m, line_number)

如果需要内容,可以将最后一个循环替换为:for m in matches:

newline_offset = string.rfind('\n', 0, m.start())

newline_end = string.find('\n', m.end()) # '-1' gracefully uses the end.

line = string[newline_offset + 1:newline_end]

line_number = newline_table[newline_offset]

yield (m, line_number, line)

请注意,最好避免从finditer创建列表,但这意味着我们不知道何时停止存储新行(即使只有模式匹配在文件的开头,它也可能最终存储许多新行)。

如果避免存储所有匹配项是很重要的,那么可以根据需要生成一个扫描换行符的迭代器,尽管不确定这会在实践中给您带来多大优势。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值