爬取校花图片保存到本地文件夹下（requests+re）

最新推荐文章于 2024-04-17 18:45:46 发布

小狐狸梦想去童话镇

最新推荐文章于 2024-04-17 18:45:46 发布

阅读量457

点赞数 1

分类专栏： python爬虫文章标签： python 正则表达式爬虫

本文链接：https://blog.csdn.net/gets_s/article/details/115447924

版权

python爬虫专栏收录该内容

15 篇文章 15 订阅

订阅专栏

一、爬取网站分析

爬取目标网址：http://www.521609.com/tuku/shz/
在这里插入图片描述
通过分析可得，该界面数据使用静态加载方式，所以获取到网页源代码，再对源代码进行数据解析即可（使用re正则表达式进行数据的匹配）。

二、程序源代码

import re # 正则表达式
import os # 创建文件夹

import requests
import urllib.request

# 请求头设置
headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"
    }
# 创建空文件夹，用来存储照片
dirName = 'ImgLibs'
if not os.path.exists(dirName):
    os.mkdir(dirName)
# 获取网页源代码
url = "http://www.521609.com/tuku/shz/"
page_text = requests.get(url = url,headers = headers).text

# 解析源码
ex = '<li>.*?<img src="(.*?)" alt=.*?</li>'
img_src_list = re.findall(ex,page_text,re.S) #re.S用来解决换行问题
# 持久化存储
for src in img_src_list:
    src = 'http://www.521609.com' + src
    imgPath = dirName + '/' + src.split('/')[-1]
    response = requests.get(url = src,headers = headers)
    img_data = response.content
    with open(imgPath,'wb') as fp:
        fp.write(img_data)
    print(imgPath,'下载成功')

三、运行结果

在这里插入图片描述

小狐狸梦想去童话镇

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
爬取校花图片保存到本地文件夹下（requests+re）

一、爬取网站分析爬取目标网址：http://www.521609.com/tuku/shz/通过分析可得，该界面数据使用静态加载方式，所以获取到网页源代码，再对源代码进行数据解析即可（使用re正则表达式进行数据的匹配）。二、程序源代码import re # 正则表达式import os # 创建文件夹import requestsimport urllib.request# 请求头设置headers = { "User-Agent": "Mozilla/5.0 (Wi
复制链接

扫一扫

专栏目录