Scrapy：boos直聘爬虫案例

最新推荐文章于 2025-03-27 22:05:42 发布

旧人小表弟

最新推荐文章于 2025-03-27 22:05:42 发布

阅读量1.6k

点赞数

分类专栏：网络爬虫文章标签： xpath js ajax java 中间件

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43040873/article/details/110847534

版权

本文档介绍了如何使用Scrapy框架创建一个针对Boos直聘网站的爬虫。从启动项目开始，逐步讲解了爬虫代码的编写，包括设置settings.py，定义items.py，实现pipelines.py以及自定义middlewares.py。特别是，文章中提到了如何处理代理IP，通过创建models.py来管理代理库并检查其过期时间。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

创建爬虫

scrapy startproject boos

cd boos

scrapy gensipder -t crawl zhiping “zhipin.com”

爬虫代码

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from pa_chong.Scrapy.boos.boos.items import BoosItem


class ZhipingSpider(CrawlSpider):
    name = 'zhiping'
    allowed_domains = ['zhipin.com']
    start_urls = ['https://www.zhipin.com/c100010000/?query=python&page=1']

    rules = (
        # 匹配职位列表页url规则
        Rule(LinkExtractor(allow=r'.+\?query=python&page=\d'), follow=True),

        # 匹配职位详情页url规则
        Rule(LinkExtractor(allow=r'.+job_detail/.+~\.html'), callback='parse_job', follow=False),
    )

    # 解析职位详情
    def parse_job(self, response):
        title = response.xpath('//div[@class="name"]/h1/text()').get().strip()
        salary = response.xpath('//span[@class="badge"]/text()').get().strip()
        job_info = response.xpath('//div[@class="job-primary detail-box"]/div{@class="info-primary"]/p//text()').getall()
        city = job_info[0]
        work_years = job_info[1]
        education = job_info[2]
        company = response.xpath('//div[@class="info-company"]/h3[@class="name"]/a/text()').get().strip()

        itme = BoosItem(title=title, salary=salary, city=city, work_years=work_years, education=education, company=company)
        return itme

修改settings.py代码

在这里插入图片描述

最低0.47元/天解锁文章

旧人小表弟

博客等级

码龄7年

66
原创

44
点赞

266
收藏

28
粉丝

关注

私信

热门文章

分类专栏

最新评论

数据存储：CSV文件读取和存储
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/8002579, 请多输出高质量博客, 帮助更多的人
Python基础：面向对象
m0_72643320: 案例： class Cat: """定义一个猫类""" def __init__(self, new_name, new_age): """在创建完对象之后会自动调用, 它完成对象的初始化的功能""" # self.name = "汤姆" # self.age = 20 self.name = new_name self.age = new_age # 它是一个对象中的属性,在对象中存储,即只要这个对象还存在,那么这个变量就可以使用 # num = 100 # 它是一个局部变量,当这个函数执行完之后,这个变量的空间就没有了,因此其他方法不能使用这个变量 def __str__(self): """返回一个对象的描述信息""" # print(num) return "名字是:%s , 年龄是:%d" % (self.name, self.age) def eat(self): print("%s在吃鱼...." % self.name) def drink(self): print("%s在喝可乐..." % self.name) def introduce(self): # print("名字是:%s, 年龄是:%d" % (汤姆的名字, 汤姆的年龄)) # print("名字是:%s, 年龄是:%d" % (tom.name, tom.age)) print("名字是:%s, 年龄是:%d" % (self.name, self.age)) # 创建了一个对象 tom = Cat("汤姆", 30) print(tom)
Python基础：面向对象
m0_72643320: __str__方法和__init__方法类似，都是一些特殊方法，所以前后都有双下划线，它用来返回对象的字符串表达式如果要把一个类的实例变成str，就需要实现特殊方法__str__() 不使用__str__()方法 class Student(object): def __init__(self,id,name,age): self.id=id self.name=name self.age=age s=Student(111,"Bob",18) print(s) 输出结果：<main.Student object at 0x0362EBF0> 使用__str__()方法 class Student(object): def __init__(self,id,name,age): self.id=id self.name=name self.age=age def __str__(self): return "学号:{}--姓名:{}--年龄{}".format(self.id,self.name,self.age) s=Student(111,"Bob",18) print(s) 输出结果：学号:111–姓名:Bob–年龄18
post入门篇：请求头/响应头、cookie、URL结构/编码、数据编码、winHttpRequest、post分析技巧、伪装IP
m0_72643320: 易语言精易模块中的url编码，其他语言都一样，用相关模块就行了调试输出 (编码_URL编码 (“2022-07-28 23:59:59”, 真, 真)) ' 2022-07-28+23%3A59%3A59 调试输出 (编码_URL编码 (“2022-07-28 23:59:59”, 真, 假)) ' 2022-07-28+23%3A59%3A59 调试输出 (编码_URL编码 (“2022-07-28 23:59:59”, , 真)) ' %32%30%32%32%2D%30%37%2D%32%38+%32%33%3A%35%39%3A%35%39 调试输出 (编码_URL编码 (“2022-07-28 23:59:59”, , 假)) ' %32%30%32%32%2D%30%37%2D%32%38+%32%33%3A%35%39%3A%35%39 调试输出 (编码_URL编码_JS (“2022-07-28 23:59:59”, 0)) ' 2022-07-28%2023:59:59 调试输出 (编码_URL编码_JS (“2022-07-28 23:59:59”, 1)) ' 2022-07-28%2023%3A59%3A59 调试输出 (编码_URL编码_局部 (“2022-07-28 23:59:59”, 真)) ' 2022-07-28%2023:59:59 调试输出 (编码_URL编码_局部 (“2022-07-28 23:59:59”, 假)) ' 2022-07-28%2023:59:59 调试输出 (编码_URL编码_快速 (到字节集 (“2022-07-28 23:59:59”), 真)) ' 2022-07-28+23%3A59%3A59 调试输出 (编码_URL编码_快速 (到字节集 (“2022-07-28 23:59:59”), 假)) ' 2022-07-28+23%3a59%3a59 时间需要格式化的话：编码_URL编码_JS (时间_格式化 (到时间 (时间1), “yyyy-MM-dd ”, “hh:mm”, 真), 1)
Python爬虫，使用selenium爬取动态生成的网页数据 - 旧人笔记 - 旧人学习笔记 - 爬虫笔记 - 网络爬虫大白话
狮子座的羊咩咩: 所以vue生成的动态元素到底该怎么获取呢

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

旧人小表弟 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。