网页解析---正则匹配

王子老师

于 2020-06-20 19:00:16 发布

阅读量458

点赞数

分类专栏： Spider 文章标签：正则表达式

本文链接：https://blog.csdn.net/qq_37304462/article/details/106876315

版权

Spider 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

爬取糗事百科网页图片数据：利用正则匹配url

<div class="thumb">

<a href="/article/123230554" target="_blank">
<img src="//pic.qiushibaike.com/system/pictures/12323/123230554/medium/JVGP2HUEURQH8WJB.jpg" alt="糗事#123230554" class="illustration" width="100%" height="auto">
</a>
</div>

> 匹配规则如下：

<div class="thumb">.*?<img src="(.*?)" alt.*?</div>

import requests
import re

url = 'https://www.qiushibaike.com/imgrank/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}
r = requests.get(url,headers=headers)
# print(r.text)
url_list = re.findall(r'<div class="thumb">.*?<img src="(.*?)" alt.*?</div>',r.text,re.S)
print(url_list)
print(len(url_list))

在这里插入图片描述

王子老师

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网页解析---正则匹配

爬取糗事百科网页图片数据：利用正则匹配url<div class="thumb"><a href="/article/123230554" target="_blank"><img src="//pic.qiushibaike.com/system/pictures/12323/123230554/medium/JVGP2HUEURQH8WJB.jpg" alt="糗事#123230554" class="illustration" width="100%" heig
复制链接

扫一扫