前天刚刚爬取了知乎一个回答下面的所有图片,虽然大饱眼福,但是总觉的缺了点什么,于是尝试着爬取某论坛下面一个主题下的所有图片,下面是代码:
#总体思路是这样的,发现该主题下面帖子会按页进行排列,每一页的url仅仅只有数字不同,因此可以先写一个函数,其传入的参数是数字,对该主题一页的帖子里的图片进行下载,然后在主函数里通过循环改变传入的数字,从而改变页码,循环下载
import requests
import json
from bs4 import BeautifulSoup
import uuid
import datetime
import os
#因为这个论坛需要登陆,所以cookie十分关键,它记录了登陆后的服务器状态
cookie='__cfduid=dd57287ca0909b82cd4d6a662901033b61580542107; RSWf_2132_saltkey=S1nxAz3e; RSWf_2132_lastvisit=1580538507; RSWf_2132_sendmail=1; __51cke__=; RSWf_2132_it618_loginpreurl=https%3A%2F%2Fmtlluntan13.com%2Fportal.php; RSWf_2132_ulastactivity=1580809941%7C0; RSWf_2132_auth=3dcalCLAV3G3kwsI0WvpVOR8%2BU55VRDTz4N1O1jmxUeDlft%2Fc43tuUY1ybYrySdIUZ1ZZUKto%2FbM%2B0G34Px2kW5%2F%2Bw4; RSWf_2132_noticeTitle=1; RSWf_2132_st_t=341885%7C1580809957%7C7e30799b7609e1bd19d774f757f371d3; RSWf_2132_atarget=1; RS