我第一个正式爬取图片的爬虫,纪念一下,只是给自己看的哈!加油,冲冲冲
# encoding=utf-8
import requests
import re
import os
# 需求爬取糗事百科中的糗事图版块下所有的糗图图片
if __name__ == '__main__':
# 创建文件夹,保存所有图片
if not os.path.exists('./qiutuLibs'):
os.mkdir('./qiutuLibs')
url = 'https://www.qiushibaike.com/imgrank/'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'
}
# 使用通用爬虫对url对应的一整张页面进行爬取
page_text = requests.get(url=url,headers=headers).text
# 注意,正则表达式一定要正确,空格都不可以多打
ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
img_src_list = re.findall(ex,page_text,re.S)
# print(img_src_list)
for src in img_src_list:
#拼接出一个完整的图片url
src = 'https:'+src
# 请求到了图片的二进制数据
img_data = requests.get(url=src,headers=headers).content
# 生成图片名称
# print(img_data)
img_name = src.split('/')[-1]
# print(img_name)
# 图片存储路径
imgPath = './qiutuLibs/'+img_name
# print(imgPath)
with open(imgPath,'wb') as fp:
fp.write(img_data)
print(img_name,'下载成功!')
只爬取了一小部分的图片,如下图:
有想法的小白可以自己复制代码跑跑。