re.findall用法在爬虫图片地址

re.findall返回整个字符串中的所有匹配,存在一个字典中

万能   .*?    匹配任意字符串

例如网页源码中的一个图片(知乎)
string='1、黑社会平时都干些什么?</p><figure data-size="normal"><noscript><img src="https://picx.zhimg.com/50/v2-13d7ae1fc6964ad9296bc1c34d8b744f_720w.jpg?source=1940ef5c" data-rawwidth="1354" data-rawheight="664" data-size="normal" data-caption="" data-original-token="v2-13d7ae1fc6964ad9296bc1c34d8b744f" data-default-watermark-src="https://picx.zhimg.com/50/v2-fb89ccd0e99d3a0fbae1e65f3349b2b1_720w.jpg?source=1940ef5c" class="origin_image zh-lightbox-thumb" width="1354" data-original="https://pic1.zhimg.com/v2-13d7ae1fc6964ad9296bc1c34d8b744f_r.jpg?source=1940ef5c"/></noscript><img src="data:image/svg+xml;utf8,&lt;svg xmlns=&#39;http://www.w3.org/2000/svg&#39; width=&#39;1354&#39; height=&#39;664&#39;&gt;&lt;/svg&gt;" data-rawwidth="1354" data-rawheight="664" data-size="normal" data-caption="" data-original-token="v2-13d7ae1fc6964ad9296bc1c34d8b744f" data-default-watermark-src="https://picx.zhimg.com/50/v2-fb89ccd0e99d3a0fbae1e65f3349b2b1_720w.jpg?source=1940ef5c" class="origin_image zh-lightbox-thumb lazy" width="1354" data-original="https://pic1.zhimg.com/v2-13d7ae1fc6964ad9296bc1c34d8b744f_r.jpg?source=1940ef5c" data-actualsrc="https://picx.zhimg.com/50/v2-13d7ae1fc6964ad9296bc1c34d8b744f_720w.jpg?source=1940ef5c"/></figure><p class="ztext-empty-paragraph"><br/></p><p data-pid="1cPu5H6y">'

#匹配模式
patter1 = '</p><figure data-size=".*?"><noscript><img src="(.*?)"'
patter2 = '</p><figure data-size=".*?"><noscript><img src=".*?"'

text_web = re.findall(patter, paper_text, re.S)
#patter正则表达式,文本,re.S整个text视为一个整体, 自动换行

patter2匹配整个模式返回

</p><figure data-size="normal"><noscript><img src="https://picx.zhimg.com/50/v2-13d7ae1fc6964ad9296bc1c34d8b744f_720w.jpg?source=1940ef5c"

patter1只返回括号里的网址

https://picx.zhimg.com/50/v2-13d7ae1fc6964ad9296bc1c34d8b744f_720w.jpg?source=1940ef5c

爬虫就用patter1爬取图片网址

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值