python scrapy爬取智联招聘的公司和职位信息(一)

本文介绍了如何使用Scrapy框架创建并运行爬虫,目标是抓取智联招聘网站上的公司和职位信息,以揭露虚假招聘信息。作者在创建项目后,详细讲解了如何设置爬虫规则、添加请求头以应对网站验证,并展示了运行爬虫的基本步骤。
摘要由CSDN通过智能技术生成

这个帖子先暂时放弃。本以为和拉钩一样全是静态页面,结果在写item的时候,发现网页有点意思,突然有个大胆的想法,想试试…先埋坑,后面在填坑

缘由: 最近在找工作发现智联和51上太多培训机构的虚假招聘信息,于是乎打算写个爬虫看看,培训机构到底发布了多少虚假岗位

一、 创建scrapy项目

  1. 安装scrapy
    在终端/cmd输入

    pip install scrapy
    
  2. 创建项目
    **IDE推荐使用pycharm
    在cmd/终端输入 (zhaopin为项目的名称)

     scrapy startproject zhaopin
     (zhaopin为项目的名称)
    

    接着进入zhaopin文件夹目录

    cd zhaopin
    scrapy genspider -t crawl zhaopin www.zhaopin.com
    

    -t crawl是使用crawl模板, scrapy默认提供了4种模板,我们要进行全站爬虫,使用crawl模板是最合适的,zhaopin是爬虫名称,后面是的我们要爬虫的网站网址域名(这个一定要写对,否则可能被rule过滤掉)

    现在我们看下zhaopin文件夹下的目录结构

    我们的爬虫一般放在spiders目录下。其他文件用处暂时不管,后续我会说明的

    zhaopin
    	│   scrapy.cfg   
    	│
    	└───   zhaopin
    			   │   items.py
    			   │   middlewares.py
    			   │   pipelines.py
    		       │   settings.py
    			   └───   spiders
    			   			 │   zhaopin.py
     		       
    

二、 编写运行scrapy爬虫

  1. 确认需求
    根据我们的爬虫目标,我们主要获取这些信息

    职业页面: 职位的url,职位标题,工资,地区,学历,招聘人数
    公司页面: 公司的url,公司名称,规模,行业,在招岗位数量,邀面试数

  2. 查看系统给我们创建的zhaopin.py文件

    class Zhaopin
  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值