Python用正则爬取图片
众做周知,Python写爬虫相对来说非常的简单,Python中可以用bs、xpath、正则等手段来快速的提取我们所需要的网页数据,下面我们用正则写个爬虫,完整的分析爬虫爬取过程。
爬取的目标网站为:http://www.1ppt.com/beijing/ppt_beijing_1.html
爬取流程分析
1、网站简单分析
每页有20套图,点击图片进入套图,有的有多张,有的只有一张。
2、爬取流程
主要代码实现
1、爬取每页中每套图网址
源码分析
发现红框中的href
属性及h2
节点的文本内容不一致,其中href
属性值为套图网址中的一部分。其正则规则可以写成如下
url_pattern= re.compile(r'<h2><a href="(.*