这可以通过以下方式相当有效地完成:查找所有匹配项
循环换行,将{offset: line_number}映射存储到最后一个匹配。
对于每一个匹配项,预先反向查找第一个换行符的偏移量,并在地图中查找它的行号。
这样可以避免每次匹配都倒数到文件的开头。
以下函数类似于re.finditerdef finditer_with_line_numbers(pattern, string, flags=0):
'''
A version of 're.finditer' that returns '(match, line_number)' pairs.
'''
import re
matches = list(re.finditer(pattern, string, flags))
if not matches:
return []
end = matches[-1].start()
# -1 so a failed 'rfind' maps to the first line.
newline_table = {-1: 0}
for i, m in enumerate(re.finditer(r'\n', string), 1):
# don't find newlines past our last match
offset = m.start()
if offset > end:
break
newline_table[offset] = i
# Failing to find the newline is OK, -1 maps to 0.
for m in matches:
newline_offset = string.rfind('\n', 0, m.start())
line_number = newline_table[newline_offset]
yield (m, line_number)
如果需要内容,可以将最后一个循环替换为:for m in matches:
newline_offset = string.rfind('\n', 0, m.start())
newline_end = string.find('\n', m.end()) # '-1' gracefully uses the end.
line = string[newline_offset + 1:newline_end]
line_number = newline_table[newline_offset]
yield (m, line_number, line)
请注意,最好避免从finditer创建列表,但这意味着我们不知道何时停止存储新行(即使只有模式匹配在文件的开头,它也可能最终存储许多新行)。
如果避免存储所有匹配项是很重要的,那么可以根据需要生成一个扫描换行符的迭代器,尽管不确定这会在实践中给您带来多大优势。