python 正则表达式点号与'\n'符号的问题

最新推荐文章于 2022-09-09 15:48:19 发布

dilin1897

最新推荐文章于 2022-09-09 15:48:19 发布

阅读量835

点赞数

文章标签： python

原文链接：http://www.cnblogs.com/Tommy-Yu/p/4194991.html

版权

遇到了一个小虫，特记录之。

1.正则表达式及英文的处理如下：

>>> import re
>>> b='adfasdfasf<1safadsaf>23wfsa<13131>'
>>> pat = re.compile('<.*?>')
>>> pat.findall(b)
['<1safadsaf>', '<13131>']

2. 换成中文貌似就没反应了

>>> msg="<Fault warning -- \xb4\xed\xce\xf3!\n\n\xb2\xfa\xc6\xb7\xb1\xe0\xba\xc5\xb1\xd8\xd0\xe8\xce\xa8\xd2\xbb,\xd0\xc2\xb1\xe0\xba\xc53123\xb6\xd4\xd3\xa6\xb5\xc4\xb2\xfa\xc6\xb7\xd2\xd1\xbe\xad\xb4\xe6\xd4\xda!\n\xc8\xe7\xb9\xfb\xc4\xfa\xca\xd4\xcd\xbc\xcd\xa8\xb9\xfd\xb8\xb4\xd6\xc6\xc0\xb4\xc9\xfd\xbc\xb6\xb2\xfa\xc6\xb7\xd4\xf2\xcb\xb5\xc3\xf7\xb4\xcb\xb2\xfa\xc6\xb7\xd2\xd1\xbe\xad\xb4\xe6\xd4\xda\xc9\xfd\xbc\xb6\xb0\xe6\xa3\xac\xc7\xeb\xc1\xf4\xd2\xe2\xa1\xa3: ''>"
>>> pat.findall(msg)
[]

仔细分析了下貌似因为其中的\n字符！

甚为不解，又try了一把：

>>> msg ='<\r>asdasf<asdfaf>'
>>> pat.findall(msg)
['<\r>', '<asdfaf>']
>>> msg='<\n>adf<afd>'
>>> pat.findall(msg)
['<afd>']
>>> msg='<\s>adaf<asdfa>'
>>> pat.findall(msg)
['<\\s>', '<asdfa>']
>>> msg='<\n>asdfasf<asfa>'
>>> pat.findall(msg)
['<asfa>']

确实点号无法匹配特殊字符'\n'!

在这里找到了说明。

.	匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符，请使用象 '[.\n]' 的模式。

3.[.\n]的尴尬情况

>>> pat= re.compile('<[.\n]*?>')
>>> pat.findall(msg)
['<\n>']

>>> msg
'<\n>asdfasf<asfa>'

>>> msg='<\nasdfs>adaf<adaf>'
>>> pat.findall(msg)
[]

谷歌了一番，找到了答案，在这里。即加入DOTALL选项。如下：

>>> pat = re.compile('<.*?>',re.DOTALL)
>>> pat.findall(msg)
['<\nasdfs>', '<adaf>']

转载于:https://www.cnblogs.com/Tommy-Yu/p/4194991.html

dilin1897

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 正则表达式点号与'\n'符号的问题

遇到了一个小虫，特记录之。1.正则表达式及英文的处理如下：>>> import re>>> b='adfasdfasf<1safadsaf>23wfsa<13131>'>>> pat = re.compile('<.*?>')>>> pat.findall(...
复制链接

扫一扫