看了崔大佬的文章,写了这个爬虫,学习了!原文地址
现在该网站加了反爬机制,不过在headers里加上refere参数就行了。
以下代码仅做学习记录之用:
from bs4 import BeautifulSoup import requests import os import time # 构造带页码的页面链接 def get_mzi_page(): headers = { 'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1" " (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"} res = requests.get('http://www.mzitu.com', headers=headers) soup = BeautifulSoup(res.text, 'lxml') page = soup.select('.nav-links a') # 返回一个列表 page_count = page[-2].get_text() for i in range(1, int(page_count) + 1): # 构造每个页面链接 page_url = "http://www.mzitu.com/page/" + f"{i}/" # 获取当前页面的所有专题,并输出提示 print(f"