re.findall返回整个字符串中的所有匹配,存在一个字典中
万能 .*? 匹配任意字符串
例如网页源码中的一个图片(知乎)
string='1、黑社会平时都干些什么?</p><figure data-size="normal"><noscript><img src="https://picx.zhimg.com/50/v2-13d7ae1fc6964ad9296bc1c34d8b744f_720w.jpg?source=1940ef5c" data-rawwidth="1354" data-rawheight="664" data-size="normal" data-caption="" data-original-token="v2-13d7ae1fc6964ad9296bc1c34d8b744f" data-default-watermark-src="https://picx.zhimg.com/50/v2-fb89ccd0e99d3a0fbae1e65f3349b2b1_720w.jpg?source=1940ef5c" class="origin_image zh-lightbox-thumb" width="1354" data-original="https://pic1.zhimg.com/v2-13d7ae1fc6964ad9296bc1c34d8b744f_r.jpg?source=1940ef5c"/></noscript><img src="data:image/svg+xml;utf8,<svg xmlns='http://www.w3.org/2000/svg' width='1354' height='664'></svg>" data-rawwidth="1354" data-rawheight="664" data-size="normal" data-caption="" data-original-token="v2-13d7ae1fc6964ad9296bc1c34d8b744f" data-default-watermark-src="https://picx.zhimg.com/50/v2-fb89ccd0e99d3a0fbae1e65f3349b2b1_720w.jpg?source=1940ef5c" class="origin_image zh-lightbox-thumb lazy" width="1354" data-original="https://pic1.zhimg.com/v2-13d7ae1fc6964ad9296bc1c34d8b744f_r.jpg?source=1940ef5c" data-actualsrc="https://picx.zhimg.com/50/v2-13d7ae1fc6964ad9296bc1c34d8b744f_720w.jpg?source=1940ef5c"/></figure><p class="ztext-empty-paragraph"><br/></p><p data-pid="1cPu5H6y">'
#匹配模式
patter1 = '</p><figure data-size=".*?"><noscript><img src="(.*?)"'
patter2 = '</p><figure data-size=".*?"><noscript><img src=".*?"'
text_web = re.findall(patter, paper_text, re.S)
#patter正则表达式,文本,re.S整个text视为一个整体, 自动换行
patter2匹配整个模式返回
</p><figure data-size="normal"><noscript><img src="https://picx.zhimg.com/50/v2-13d7ae1fc6964ad9296bc1c34d8b744f_720w.jpg?source=1940ef5c"
patter1只返回括号里的网址
https://picx.zhimg.com/50/v2-13d7ae1fc6964ad9296bc1c34d8b744f_720w.jpg?source=1940ef5c
爬虫就用patter1爬取图片网址