爬虫福利二之妹子图网批量下载MM

梦魇java

于 2021-11-23 15:32:03 发布

阅读量2.2k

点赞数 1

分类专栏：爬虫 python 数据分析文章标签：正则表达式 python 前端

本文链接：https://blog.csdn.net/MC_XY/article/details/121494552

版权

本文介绍如何使用Python的requests和beautifulsoup4库来批量下载妹子图网站的图片。首先获取网页源码，然后提取所需信息，接着进入每个套图的页面，找出图片地址并保存。适合对爬虫感兴趣的读者学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

看了本文，相信大家对爬虫一定会产生强烈的兴趣，激励自己去学习爬虫，在这里提前祝：大家学有所成！

目标网站：妹子图网

环境：Python3.x

相关第三方模块：requests、beautifulsoup4

Re：各位在测试时只需要将代码里的变量 path 指定为你当前系统要保存的路径，使用 python xxx.py 或IDE运行即可。

完整源码如下：

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import os

all_url = 'https://www.mzitu.com'

# http请求头
Hostreferer = {
    'User-Agent': 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
    'Referer': 'http://www.mzitu.com'
}
# 此请求头Referer破解盗图链接
Picreferer = {
    'User-Agent': 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
    'Referer': 'http://i.meizitu.net'
}

# 对mzitu主页all_url发起请求，将返回的HTML数据保存，便于解析
start_html = requests.get(all_url, headers=Hostreferer)

# Linux保存地址
# path = '/home/Nick/Desktop/mzitu/'

# Windows保存地址
path = 'E:/mzitu/'

# 获取最大页数
soup = BeautifulSoup(start_html.text, "html.parser")
page = soup.find_all('a', class_='page-numbers')
max_page = page[-2].text

# same_url = 'http://www.mzitu.com/page/'   # 主页默认最新图片
# 获取每一类MM的网址
same_url = 'https://www.mzitu.com/mm/page/'     # 也可以指定《qingchun MM系列》

for n in range(1, int(max_page) + 1):
    # 拼接当前类MM的所有url
    ul = same_url + str(n)

    # 分别对当前类每一页第一层url发起请求
    start_html = requests.get(ul, headers=Hostreferer)

    # 提取所有MM的标题
    soup = BeautifulSoup(start_html.text, "html.parser")
    all_a = soup.find('div', class_='postlist').find_all('a', target='_blank'

最低0.47元/天解锁文章