写在前面
晚上逛B站的时候,看到这个视频,我啪的一下就点进去了,很快啊。于是重新复现了功能并做了些小优化,今天分享给大家。还是老规矩在文末会附上完整代码,需要的小伙伴自取就好了,能帮助到你的话别忘了点赞关注喔~
一、需求分析
爬取网站的小姐姐图片,并保存在指定目录
网站链接: https://www.vmgirls.com/13344.html
效果图如下:
二、编程思路、
PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取
在爬取网页时首先要的就是对网页进行分析,这里我主要需要的是两个部分,一个是这组图的名称,用来做文件名;另一个是图片链接,用来下载图片。
通过对源码观察我发现组图的名称在这个<h1>的标签里<h1 class="post-title h1">少女情怀总是诗</h1>,图片链接的话在这个<a>标签中<a href="//static.vmgirls.com/image/2019/12/2019122210292813-scaled.jpeg" alt="少女情怀总是诗" title="少女情怀总是诗"><img alt="少女情怀总是诗-唯美女生" src="https://img-blog.csdnimg.cn/2022010708450219776.gif" data-src="//static.vmgirls.com/image/2019/12/2019122210292813-scaled.jpeg" data-nclazyload=true data-pagespeed-lsc-url="https://static.vmgirls.com/image/2019/12/2019122210292813-scaled.jpeg"></a>好了找到要爬取内容的所在地之后那么就很简单了,因为我比较擅长re库,所以这里用正则表达式来进行网页解析,完整代码在下边给出。
三、完整代码
import requests import re import time import os #获取网页 kv = {'user-agent':'Mozilla/5.0'} response = requests.get("https://www.vmgirls.com/13344.html" , headers = kv) html = response.text #解析网页 dir_name = re.findall('<h1 class="post-title h1">(.*?)</h1>',html)[-1] #作为文件名 if not os.path.exists(dir_name): os.mkdir(dir_name) urls = re.findall('<a href="(.*?)" alt="少女情怀总是诗".*?</a>',html) #print(urls) #保存图片到指定文件 num = 1 for url in urls: time.sleep(1) #设置爬取时间间隔为1s #定义图片的名字 file_name = url.split('/')[-1] response = requests.get('https:' + url , headers = kv) #制定并获取图片链接 with open(dir_name + '/' + file_name,'wb') as f: f.write(response.content) #因为图片是二进制所以用content写入 print("正在爬取第%d张图片"%(num)) num = num + 1 f.close() print("爬取完毕")
然后就可以看到一张张图片被下载到本地啦,还在等什么,赶紧试试吧~
引用源自Mr.Q*