爬取mzi.com妹子图片网站（requests库）

最新推荐文章于 2022-09-08 17:20:09 发布

weixin_30454481

最新推荐文章于 2022-09-08 17:20:09 发布

阅读量1.7k

点赞数

文章标签： python 爬虫

原文链接：http://www.cnblogs.com/toheart/p/9939728.html

版权

本文介绍了如何使用Python的requests库绕过反爬机制，爬取mzi.com网站上的妹子图片。作者通过阅读崔大佬的文章并实践，学习了爬虫技巧，代码仅供学习记录。

摘要由CSDN通过智能技术生成

看了崔大佬的文章，写了这个爬虫，学习了！原文地址

现在该网站加了反爬机制，不过在headers里加上refere参数就行了。

以下代码仅做学习记录之用：

from bs4 import BeautifulSoup
import requests
import os
import time
# 构造带页码的页面链接
def get_mzi_page():
    headers = {
        'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1"
                      " (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}
    res = requests.get('http://www.mzitu.com', headers=headers)
    soup = BeautifulSoup(res.text, 'lxml')
    page = soup.select('.nav-links a')  # 返回一个列表
    page_count = page[-2].get_text()
    for i in range(1, int(page_count) + 1):
        # 构造每个页面链接
        page_url = "http://www.mzitu.com/page/" + f"{i}/"
        # 获取当前页面的所有专题,并输出提示
        print(f"