【python】批量采集次元岛cos美图，只是为了学习~

本文链接：https://blog.csdn.net/python56123/article/details/130641130

该文章介绍了如何使用Python3.8及Pycharm环境，结合requests库进行数据请求，re库进行正则表达式匹配来抓取网页图片链接，并通过os模块创建文件夹保存图片。作者提供了详细的代码示例，展示了从获取图集链接到下载图片的完整过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

嗨喽~大家好呀，这里是魔王呐 ❤ ~!

这里写目录标题

开发环境:

Python 3.8
Pycharm

模块使用:

第三方模块需要安装在cmd里面进行 pip install requests

requests >>> 数据请求模块
re >>> 匹配提取数据
os >>> 自动创建文件夹

代码展示

导入模块

# 导入数据请求模块
import requests
# 导入正则表达式模块
import re
# 导入文件操作模块
import os

python符号都是英文符号

字符串引号: 单引号 / 双引号 / 三引号 <也可以作为多行注释>

单引号里面必须是双引号不能是单引号

python常用单词词汇: 135个左右+

“”"

发送请求, 模拟浏览器对于 url地址发送请求
- 模拟浏览器 <headers请求头>
  
  可以直接复制粘贴
采集单个图集数据

采集多个图集数据:
- 请求某一个图集详情页链接 --> 获取所有图集详情页url
  
  图集ID
采集多页图集数据:

“”"
模拟浏览器

headers = {
    # User-Agent 用户代理 表示浏览器基本身份信息
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}

请求链接图集列表页面

link = 'http://*****/photo/list/0-4-1'

发送请求

html_data = requests.get(url=link, headers=headers).text

解析数据 .*? 可以匹配任意字符<除了\n>

img_id_list = re.findall('<a href="/photo/show/(\d+)">', html_data)
# for循环
for img_id in img_id_list:
    print(img_id)
    # 请求链接
    url = f'http://******/photo/show/{img_id}'
    # 发送请求
    response = requests.get(url=url, headers=headers)
    # <Response [200]> 表示请求成功
    print(response)

“”"

获取数据, 获取网页源代码
解析数据, 提取我们想要的数据内容

图集标题 / 图片url地址

re正则

re.findall(‘什么数据’, ‘什么地方’) --> re模块<工具>里面findall方法 <找到所有我们想要的数据内容>

“”"

    # 标题
    title = re.findall('<title>(.*?) - 次元岛</title>', response.text)[0]
    # 替换特殊字符
    new_title = re.sub(r'[\/:*?"<>|]', '', title)
    print(title)
    # 图片内容 <列表>
    img_list = re.findall('<a href="javascript:;"><img src="(.*?)"></a>', response.text)
    num = 1
    # 把列表中图片链接 一个一个提取出来, for循环遍历
    for img in img_list:

“”"

保存数据, 保存到本地文件夹当中 <图片/视频/音频/特定格式文件都是获取二进制内容>

图片链接地址 --> 获取图片内容

对于图片链接地址发送请求获取数据内容

“”"

        # 获取图片的二进制数据
        img_content = requests.get(url=img, headers=headers).content

自动创建文件夹

        file = f'data\\{new_title}\\'
        # 判断是否存在这个文件夹
        if not os.path.exists(file):
            # 自动创建文件
            os.makedirs(file)

        with open(file + new_title + str(num) + '.jpg', mode='wb') as f:
            f.write(img_content)
            num += 1
        print(img)