python爬虫 requets设置headers目的

最新推荐文章于 2024-05-09 19:02:21 发布

cuicui_ruirui

最新推荐文章于 2024-05-09 19:02:21 发布

阅读量981

点赞数

分类专栏： Python爬虫

本文链接：https://blog.csdn.net/cuicui_ruirui/article/details/105300579

版权

Python爬虫专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1.设置headers目的

在请求网页爬取的时候输出的text信息中会出现抱歉，无法访问等字眼，这就是网页设置了禁止爬取。

headers是解决requests请求反爬的方法之一，相当于我们进去这个网页的服务器本身，假装自己本身在爬取数据

对反爬虫网页，可以设置一些headers信息，模拟成浏览器去访问网站

2.查看headers

谷歌浏览器右键检查，点 Network，刷新页面，点Doc，选第一个，按照图中顺序，找Requests Headers下找user-agent，将里面的内容复制下来作为headers

例如

import requests

headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'}

htl=requests.get('https://mp.csdn.net/console/editor/html/105300579',headers=headers)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

cuicui_ruirui

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
python爬虫 requets设置headers目的

1.设置headers目的在请求网页爬取的时候输出的text信息中会出现抱歉，无法访问等字眼，这就是网页设置了禁止爬取。headers是解决requests请求反爬的方法之一，相当于我们进去这个网页的服务器本身，假装自己本身在爬取数据对反爬虫网页，可以设置一些headers信息，模拟成浏览器去访问网站2.查看headers谷歌浏览器右键检查，点 Network，刷新页面...
复制链接

扫一扫