问题原因
网站开启了防爬虫,爬取的设置,通过头部的cookie和User-Agent判断
解决流程
在头部设置以下内容
def ask_url(url,method):
proxies = {
"http": None,
"https": None,
}
header = {
"Cache-Control":"no-cache",
"Cookie":"xxx",//通过浏览器控制台获取
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.17 Safari/537.36 Edg/99.0.1150.11'//通过浏览器控制台获取
}
requests.packages.urllib3.disable_warnings()
if(method == 'get'):
page_text = requests.get(url,headers=header,verify=False,proxies=proxies).content
else:
page_text = requests.post(url,headers=header,verify=False,proxies=proxies).content
# 编码格式转换,防止中文乱码
page_text.decode("utf-8","ignore")
#实例化beautifulSoup对象,需要将页面源码数据加载到该对象中
soup = BeautifulSoup(page_text,'html.parser')
# print(soup)
return soup
✨ 踩 坑 不 易 , 还 希 望 各 位 大 佬 支 持 一 下 \textcolor{gray}{踩坑不易,还希望各位大佬支持一下} 踩坑不易,还希望各位大佬支持一下
📃 个 人 主 页 : \textcolor{green}{个人主页:} 个人主页: 沉默小管
📃 个 人 网 站 : \textcolor{green}{个人网站:} 个人网站: 沉默小管
🔥 技 术 交 流 Q Q 群 : 837051545 \textcolor{green}{技术交流QQ群:837051545} 技术交流QQ群:837051545
👍 点 赞 , 你 的 认 可 是 我 创 作 的 动 力 ! \textcolor{green}{点赞,你的认可是我创作的动力!} 点赞,你的认可是我创作的动力!
⭐️ 收 藏 , 你 的 青 睐 是 我 努 力 的 方 向 ! \textcolor{green}{收藏,你的青睐是我努力的方向!} 收藏,你的青睐是我努力的方向!
✏️ 评 论 , 你 的 意 见 是 我 进 步 的 财 富 ! \textcolor{green}{评论,你的意见是我进步的财富!} 评论,你的意见是我进步的财富!
如果有不懂可以留言,我看到了应该会回复
如有错误,请多多指教