引子
最近在爬取一个网站时, 遇到了521错误, 这是一种网站的反爬技术, 浏览器会渲染很多东西, 代码爬数据会漏掉浏览器渲染的信息
思路
可以尝试复制浏览器的cookie信息, 加在请求头中, 但是这样只能获取单个域名的网页。恰巧我需要爬取的网站下面有多个二级域名的网页(二级域名网页的链接可以通过一级域名获取), 复制每个二级域名的cookie来爬取每个二级域名的网页是不太可能的
进一步的方案是通过PhantomJS的无头浏览器发送两次请求, 第一次请求获取一部分Cookie(__jsl_clearance)的信息, 第二次请求再将这部分Cookie加在Header信息中, 就可以获得网页内容
第一次尝试
urls = request.url.split("/")
host = urls[-2]
headers = {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
"Accept-Language": "zh-CN,zh;q=0.8,en;q=0.6",
"Connection": "keep-alive",
"Host": host,
"Referer": request.url,
"Upgrade-Insecure-Requests": 1
}
ua = random.choice(spider.settings.get("UAPOOL"))
headers["User-Agent"] = ua
cap = DesiredCapabilities.PHANTOMJS.copy()
for key, value in headers.items():