python动态获取cookie_scrapy爬虫使用Ghost.py动态获取cookie

最新推荐文章于 2024-06-14 14:39:43 发布

柯尼塞格dbd

最新推荐文章于 2024-06-14 14:39:43 发布

阅读量653

点赞数

文章标签： python动态获取cookie

本文链接：https://blog.csdn.net/weixin_32446549/article/details/114419850

版权

本文介绍了在Scrapy爬虫中遇到521错误时，如何使用Ghost.py库模拟浏览器行为动态获取Cookie信息。通过安装Ghost.py，初始化类并保存cookies到文件，然后读取并解析Cookie，实现Scrapy爬虫中定时更新Cookie，确保爬取的正常进行。然而，Ghost.py依赖PySide或PyQt4，这在本地运行正常但可能在服务器上导致问题。

摘要由CSDN通过智能技术生成

前言

前段时间在用scrapy爬取某个网站时一直报521错误，在seeting.py里设置HTTPERROR_ALLOWED_CODES= [521]后会发现返回的response是一段加密的js代码。这段js代码是动态取得cookie信息的(但是只有一个value,故放弃了使用python库去执行js的打算),最后利用浏览器打开网页将其cookie手动添加到爬虫中会正常返回数据，最后找到了Ghost.py这个库去模拟浏览器打开网站行为并动态获取cookie信息的办法。

具体步骤

.安装Ghost.py

sudo pip install Ghost.py==0.1.2

返回最新的cookie

from ghost import Ghost

from scrapy import log

import re

class Cookieutil:

def __init__(self,url):

log.msg('init cookieutil class ,will be get %s cookie information!' %url, log.INFO)

gh = Ghost(download_images=False,display=False)

gh.open(url)