Python爬虫【四】静态网页爬虫2-反爬虫
1、反爬虫
反爬虫
是网站限制爬虫的一种策略。它并不是禁止爬虫(完全禁止爬虫几乎不可能,也可能误伤正常用户),而是限制爬虫,让爬虫在网站可接受的范围内爬取数据,不至于导致网站瘫痪无法运行。
常见的反爬虫方式有 判别身份
和 IP限制
两种
2、判别身份
浏览器\爬虫访问网站时都会带上一些信息用于身份识别,这些信息都被存储在一个叫请求头
(Request Headers)的地方。
查看请求头的步骤:
(1)点击Network标签(里面记录了所有网络请求)
(2)点击第一个请求
(3)找到Request Headers(请求头)
(4)找到user-agent(用户代理)字段
user-agent
里包含了操作系统、浏览器类型、版本等信息,通过修改它我们就能成功地伪装成浏览器。
定制请求头:只需定义一个字典(请求头字段作为键,字段内容作为值)传递给header
参数即可。
import requests
# 从浏览器中复制粘贴的请求头
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWeb