Scrapy反爬虫之521异常

最新推荐文章于 2024-03-09 13:25:56 发布

Teddy1982

最新推荐文章于 2024-03-09 13:25:56 发布

阅读量1.7k

点赞数

分类专栏：爬虫 TroubleShooting

本文链接：https://blog.csdn.net/u011414629/article/details/103652442

版权

引子

最近在爬取一个网站时, 遇到了521错误, 这是一种网站的反爬技术, 浏览器会渲染很多东西, 代码爬数据会漏掉浏览器渲染的信息

思路

可以尝试复制浏览器的cookie信息, 加在请求头中, 但是这样只能获取单个域名的网页。恰巧我需要爬取的网站下面有多个二级域名的网页(二级域名网页的链接可以通过一级域名获取), 复制每个二级域名的cookie来爬取每个二级域名的网页是不太可能的

进一步的方案是通过PhantomJS的无头浏览器发送两次请求, 第一次请求获取一部分Cookie(__jsl_clearance)的信息, 第二次请求再将这部分Cookie加在Header信息中, 就可以获得网页内容

第一次尝试

urls = request.url.split("/")
host = urls[-2]

headers = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    "Accept-Language": "zh-CN,zh;q=0.8,en;q=0.6",
    "Connection": "keep-alive",
    "Host": host,
    "Referer": request.url,
    "Upgrade-Insecure-Requests": 1
}
ua = random.choice(spider.settings.get("UAPOOL"))
headers["User-Agent"] = ua

cap = DesiredCapabilities.PHANTOMJS.copy()
for key, value in headers.items():

最低0.47元/天解锁文章

Teddy1982

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Scrapy反爬虫之521异常

引子最近在爬取一个网站时, 遇到了521错误, 这是一种网站的反爬技术, 浏览器会渲染很多东西,代码爬数据会漏掉浏览器渲染的信息思路可以尝试复制浏览器的cookie信息, 加在请求头中, 但是这样只能获取单个域名的网页。恰巧我需要爬取的网站下面有多个二级域名的网页(二级域名网页的链接可以通过一级域名获取), 复制每个二级域名的cookie来爬取每个二级域名的网页是不太可能的进一步...
复制链接

扫一扫