提示:网站及代码均已验证通过
前言
在网上看到一个案例,但自己操作起来有一些问题,如SSL认证、CSV文件中文乱码、网站还需翻页,我通过chatGPT及baidu将代码进行了优化。供参考。
2.编写代码
代码如下(示例):
#request网站请求
import urllib.request
#BeautifulSoup获取网站源代码
from bs4 import BeautifulSoup
import pandas as pd
import csv
# 关闭ssl本地认证即可.访问的网站是https://,需要SSL认证,而直接用urllib会导致本地验证失败。
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
# 构造网址
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36'