注意事项:
1.header信息需要更改,具体步骤见
如何查看一个网页的请求头header信息_查看网页header-CSDN博客
2.网址信息需要更改
3.第142行的存储位置需要更改
4.这几个代码库要在对应的软件上面安装
5.日期格式为20230504
import requests
import bs4
import os
import datetime
import time
def fetchUrl(url):
headers = {
'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'
}
r = requests.get(url, headers=headers)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
def getPageList(year, month, day):
url &#