在PYTHON使用正正则表达式匹配爬虫爬取下来的内容时经常使用两种模式:贪婪模式、懒惰模式
贪婪模式需要尽可能多的去匹配内容,其常用的表达式:.*【.表示识别任意除了\n外的字符,*表示识别0~n次;这里可以理解为 匹配0~n个 . 】
懒惰模式(非贪婪模式)则需要精准匹配尽可能少的内容,其常用的表达式为:.*?【?表示识别0次或1次;可以理解为 匹配0~n个 . 但只匹配第一次符合规格的内容】
import re
str = '<button class="feedback-btn" style="display: inline-block;">'
pat1 = 'class=".*"' #贪婪模式,尽可能多的匹配
pat2 = 'class=".*?"' #懒惰模式,尽可能少的匹配
print("识别1",re.search(pat1, str))
#识别第一个“到最后一个”
print("识别2",re.search(pat2, str))
#识别第一个“到第二个”