scrapy抓企查查数据,scrapy爬虫核心代码,可以直接拿来参考
注意点:
1.免费用户只能查看100条数据
2、vip收费用户只能查看5000条数据
建议各位有需求的小伙伴直接去企查查接口平台,去直接调用接口就好。
# -*- coding: utf-8 -*-
import scrapy
class SpiderSpider(scrapy.Spider):
name = 'spider'
allowed_domains = ['qcc.com']
def parse(self, response):
# print(response.body)
pass
def start_requests(self):
# 浏览器用户代理
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
}
# 指定cookies
cookies = {
# 这里的cookie 是登录之后,用浏览器中拆分得到的
'key':'value'
}
# 这里是用来抓取url,从浏览器中获得
urls = ['']
for url in urls:
yield scrapy.Request(url=url, headers=headers, cookies=cookies, callback=self.parse)