爬虫的浏览器伪装

最新推荐文章于 2023-04-06 17:03:29 发布

VIP文章三名狂客

最新推荐文章于 2023-04-06 17:03:29 发布

阅读量565

点赞数 1

分类专栏： python爬虫文章标签：爬虫的浏览器伪装爬虫

本文链接：https://blog.csdn.net/zuochao_2013/article/details/75453817

版权

一、常见的反爬虫机制

(1)通过分析用户请求的Headers信息
构造用户请求的Headers，即设置好"User-Agent""Referer"字段信息

(2)检测用户行为:判断同一个ip在短时间内是否频繁访问对应的网站
使用代理服务器经常切换代理ip

(3)通过动态页面增加爬虫爬取的难度
用一些工具软件，如selenium+phantomJS

二、浏览器伪装实战

import urllib.request
import http.cookiejar
#注意，如果要通过fiddler调试，则下方网址要设置为"http://www.baidu.com/"
url= "http://www.baidu.com"
headers={ "Accept":" text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
                        "Accept-Encoding":" gb2312,utf-8",
                        "Accept-Language":" zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
                          "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW6

最低0.47元/天解锁文章

三名狂客

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
爬虫的浏览器伪装

一、常见的反爬虫机制(1)通过分析用户请求的Headers信息构造用户请求的Headers，即设置好"User-Agent""Referer"字段信息(2)检测用户行为:判断同一个ip在短时间内是否频繁访问对应的网站使用代理服务器经常切换代理ip(3)通过动态页面增加爬虫爬取的难度用一些工具软件，如selenium+phantomJS
复制链接

扫一扫