python匹配到的行号_python regex，在多行中匹配，但仍希望得到行号

最新推荐文章于 2021-10-14 17:45:57 发布

weixin_39743064

最新推荐文章于 2021-10-14 17:45:57 发布

阅读量760

点赞数

文章标签： python匹配到的行号

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39743064/article/details/111861331

版权

本文介绍了一个函数，该函数扩展了`re.finditer`，返回匹配项及其对应的行号。通过查找所有匹配项，循环遍历换行符，建立一个映射表，从而高效地获取每个匹配项所在的行号。

摘要由CSDN通过智能技术生成

这可以通过以下方式相当有效地完成：查找所有匹配项

循环换行，将{offset: line_number}映射存储到最后一个匹配。

对于每一个匹配项，预先反向查找第一个换行符的偏移量，并在地图中查找它的行号。

这样可以避免每次匹配都倒数到文件的开头。

以下函数类似于re.finditerdef finditer_with_line_numbers(pattern, string, flags=0):

'''

A version of 're.finditer' that returns '(match, line_number)' pairs.

'''

import re

matches = list(re.finditer(pattern, string, flags))

if not matches:

return []

end = matches[-1].start()

# -1 so a failed 'rfind' maps to the first line.

newline_table = {-1: 0}

for i, m in enumerate(re.finditer(r'\n', string), 1):

# don't find newlines past our last match

offset = m.start()

if offset > end:

break

newline_table[offset] = i

# Failing to find the newline is OK, -1 maps to 0.

for m in matches:

newline_offset = string.rfind('\n', 0, m.start())

line_number = newline_table[newline_offset]

yield (m, line_number)

如果需要内容，可以将最后一个循环替换为：for m in matches:

newline_offset = string.rfind('\n', 0, m.start())

newline_end = string.find('\n', m.end()) # '-1' gracefully uses the end.

line = string[newline_offset + 1:newline_end]

line_number = newline_table[newline_offset]

yield (m, line_number, line)

请注意，最好避免从finditer创建列表，但这意味着我们不知道何时停止存储新行(即使只有模式匹配在文件的开头，它也可能最终存储许多新行)。

如果避免存储所有匹配项是很重要的，那么可以根据需要生成一个扫描换行符的迭代器，尽管不确定这会在实践中给您带来多大优势。

weixin_39743064

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。