Python爬虫【四】静态网页爬虫2-反爬虫

最新推荐文章于 2023-10-05 11:02:12 发布

假IT女

最新推荐文章于 2023-10-05 11:02:12 发布

阅读量249

点赞数

分类专栏：【Python】| 爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/m0_45972448/article/details/120758025

版权

1、反爬虫

反爬虫是网站限制爬虫的一种策略。它并不是禁止爬虫（完全禁止爬虫几乎不可能，也可能误伤正常用户），而是限制爬虫，让爬虫在网站可接受的范围内爬取数据，不至于导致网站瘫痪无法运行。

常见的反爬虫方式有 判别身份 和 IP限制 两种

浏览器\爬虫访问网站时都会带上一些信息用于身份识别，这些信息都被存储在一个叫请求头（Request Headers）的地方。

查看请求头的步骤：

（1）点击Network标签（里面记录了所有网络请求）
（2）点击第一个请求
（3）找到Request Headers（请求头）
（4）找到user-agent（用户代理）字段

user-agent 里包含了操作系统、浏览器类型、版本等信息，通过修改它我们就能成功地伪装成浏览器。

定制请求头：只需定义一个字典（请求头字段作为键，字段内容作为值）传递给header参数即可。

import requests

# 从浏览器中复制粘贴的请求头
headers = {
  'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWeb

关注