2024年最全【python】爬取4K壁纸保存到本地文件夹【附源码】(5)，已拿意向书

2401_84132723

于 2024-05-11 04:28:52 发布

阅读量917

点赞数 18

分类专栏：程序员文章标签：网络安全学习面试

本文链接：https://blog.csdn.net/2401_84132723/article/details/138692771

版权

程序员专栏收录该内容

432 篇文章 0 订阅

订阅专栏

一、网安学习成长路线图

网安所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。
在这里插入图片描述

二、网安视频合集

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

三、精品网安学习书籍

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。
在这里插入图片描述

四、网络安全源码合集+工具包

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

五、网络安全面试题

最后就是大家最关心的网络安全面试题板块
在这里插入图片描述

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以点击这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

进入控制台输入：建议使用国内镜像源

pip install 模块名称 -i https://mirrors.aliyun.com/pypi/simple

我大致罗列了以下几种国内镜像源：

清华大学
https://pypi.tuna.tsinghua.edu.cn/simple

阿里云
https://mirrors.aliyun.com/pypi/simple/

豆瓣
https://pypi.douban.com/simple/ 

百度云
https://mirror.baidu.com/pypi/simple/

中科大
https://pypi.mirrors.ustc.edu.cn/simple/

华为云
https://mirrors.huaweicloud.com/repository/pypi/simple/

腾讯云
https://mirrors.cloud.tencent.com/pypi/simple/

效果图：

代码详解：

get_imgurl_list(url, imgurl_list) 函数用来获取指定页面中的图片链接，并将这些链接存储在 imgurl_list 列表中。

使用 requests.get(url=url, headers=headers) 发起请求获取页面内容。
使用 etree.HTML(html_str) 将页面内容转换为 etree 对象，方便后续使用 XPath 进行解析。
通过 XPath 定位到图片链接，并添加到 imgurl_list 中。

get_down_img(imgurl_list) 函数用来下载图片到本地存储。

创建名为 “美女” 的文件夹用于存储下载的图片。
遍历 imgurl_list 中的图片链接，逐个下载图片并保存到本地文件夹中。

在 if __name__ == '__main__': 部分：

设置需要爬取的页数 page_number = 10。
循环构建每一页的链接，如 https://www.moyublog.com/95-2-2-{i}.html。
调用 get_imgurl_list() 函数获取图片链接。
调用 get_down_img() 函数下载图片到本地。

代码流程：

导入必要的库和模块：

import requests  # 用于发送HTTP请求
from lxml import etree  # 用于解析HTML页面
import time  # 用于控制爬取速度
import os  # 用于文件操作

定义函数get_imgurl_list(url, imgurl_list)用于获取图片链接：

def get_imgurl_list(url, imgurl_list):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    html_str = response.text
    html_data = etree.HTML(html_str)
    li_list = html_data.xpath("//ul[@class='clearfix']/li")
    for li in li_list:
        imgurl = li.xpath(".//a/img/@data-original")[0]
        imgurl_list.append(imgurl)

发送GET请求获取网页内容。
将网页内容转换为etree对象以便后续使用xpath进行解析。
使用xpath定位所有的li标签，并遍历每个li标签获取图片链接，将链接添加到imgurl_list列表中。

定义函数get_down_img(imgurl_list)用于下载图片：

def get_down_img(imgurl_list):
    os.mkdir("美女")
    n = 0
    for img_url in imgurl_list:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'
        }
        img_data = requests.get(url=img_url, headers=headers).content
        img_path = './美女/' + str(n) + '.jpg'
        with open(img_path, 'wb') as f:
            f.write(img_data)
        n += 1

创建名为"美女"的目录用于存放下载的图片。
遍历图片链接列表，逐个发送GET请求下载图片数据，并将图片写入本地文件。每张图片以数字编号命名。

主程序部分：

if __name__ == '__main__':
    page_number = 10  # 爬取页数
    imgurl_list = []  # 存放图片链接
    for i in range(0, page_number + 1):
        url = f'https://www.moyublog.com/95-2-2-{i}.html'
        print(url)
        get_imgurl_list(url, imgurl_list)
    get_down_img(imgurl_list)