我有个需求,匹配 HTML 里的注释。以下两段代码:
#!/usr/bin/env python3
import re
html = """
11111
"""
item = re.findall(r"(?<=)",html,re.S)
for i in item:
print(i)
上面这个可以匹配成功。
这个就匹配不出来:
#!/usr/bin/env python3
import requests
import re
import json
import sys
s = requests.session()
params = {
"ie" : "utf-8",
"kw" : "linux"
}
page = s.get("http://tieba.baidu.com/f",params = params)
text = page.text
tiezi_data = re.findall(r"(?<=)",text,re.S)
print(tiezi_data)
print(len(tiezi_data))
贴吧的页面里有大量注释,注释里有大量的信息,可以在浏览器里看到。但是我的正则只能匹配到第一个,我不知道为什么。