爬虫的浏览器伪装

最新推荐文章于 2023-04-06 17:03:29 发布

三名狂客

最新推荐文章于 2023-04-06 17:03:29 发布

阅读量598

点赞数 2

分类专栏： python爬虫文章标签：爬虫的浏览器伪装爬虫

本文链接：https://blog.csdn.net/zuochao_2013/article/details/75453817

版权

一、常见的反爬虫机制

(1)通过分析用户请求的Headers信息
构造用户请求的Headers，即设置好"User-Agent""Referer"字段信息

(2)检测用户行为:判断同一个ip在短时间内是否频繁访问对应的网站
使用代理服务器经常切换代理ip

(3)通过动态页面增加爬虫爬取的难度
用一些工具软件，如selenium+phantomJS

二、浏览器伪装实战

import urllib.request
import http.cookiejar
#注意，如果要通过fiddler调试，则下方网址要设置为"http://www.baidu.com/"
url= "http://www.baidu.com"
headers={ "Accept":" text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
                        "Accept-Encoding":" gb2312,utf-8",
                        "Accept-Language":" zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
                          "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW6