爬取校花图片保存到本地文件夹下(requests+re)

一、爬取网站分析

爬取目标网址:http://www.521609.com/tuku/shz/
在这里插入图片描述
通过分析可得,该界面数据使用静态加载方式,所以获取到网页源代码,再对源代码进行数据解析即可(使用re正则表达式进行数据的匹配)。

二、程序源代码

import re # 正则表达式
import os # 创建文件夹

import requests
import urllib.request

# 请求头设置
headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"
    }
# 创建空文件夹,用来存储照片
dirName = 'ImgLibs'
if not os.path.exists(dirName):
    os.mkdir(dirName)
# 获取网页源代码
url = "http://www.521609.com/tuku/shz/"
page_text = requests.get(url = url,headers = headers).text

# 解析源码
ex = '<li>.*?<img src="(.*?)" alt=.*?</li>'
img_src_list = re.findall(ex,page_text,re.S) #re.S用来解决换行问题
# 持久化存储
for src in img_src_list:
    src = 'http://www.521609.com' + src
    imgPath = dirName + '/' + src.split('/')[-1]
    response = requests.get(url = src,headers = headers)
    img_data = response.content
    with open(imgPath,'wb') as fp:
        fp.write(img_data)
    print(imgPath,'下载成功')

三、运行结果

在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值