Scrapy爬取拉钩网的爬虫（爬取整站CrawlSpider）

最新推荐文章于 2021-11-13 11:01:10 发布

置顶

帅欢

最新推荐文章于 2021-11-13 11:01:10 发布

阅读量1k

点赞数

分类专栏：爬虫文章标签：拉钩网的爬虫

本文链接：https://blog.csdn.net/qq_36992605/article/details/81382992

版权

本文介绍如何使用Scrapy框架配合cookie来爬取拉勾网内容。由于拉勾网存在cookie验证，直接爬取会导致302重定向至登录页。通过实现登录并获取cookie，将cookie值加入请求头，可以成功爬取。提供了相关登陆代码片段，以及说明start_requests函数的重写方式。完整代码可从作者的GitHub获取。

摘要由CSDN通过智能技术生成

经过我的测试，拉钩网是一个不能直接进行爬取的网站，由于我的上一个网站是扒的接口，所以这次我使用的是scrapy的整站爬取，贴上当时的代码（代码是我买的视频里面的，但是当时是不需要登陆就可以爬取的）：

class LagouSpider(CrawlSpider):
    name = 'lagou'
    allowed_domains = ['www.lagou.com']
    start_urls = ['https://www.lagou.com']

    rules = (
        Rule(LinkExtractor(allow=("zhaopin/.*",)), follow=True),
        Rule(LinkExtractor(allow=("gongsi/j\d+.html",)), follow=True),
        Rule(LinkExtractor(allow=r'jobs/\d+.html'), callback='parse_job', follow=True),
    )
    def parse_job(self, response):
        #解析拉勾网的职位
        item_loader = LagouJobItemLoader(item=LagouJobItem(), response=response)
        item_loader.add_css("title", ".job-name::attr(title)")
        item_loader.add_value("url", respon