爬虫项目——Scrapy爬取Boss直聘

本文介绍了一个Windows环境下使用PyCharm和Python 3.6进行的Scrapy爬虫项目,旨在爬取Boss直聘网站的数据。内容包括项目创建、items定义、Spider的设置、Middleware中添加IP代理以随机更换,以及Pipeline整合MongoDB进行数据存储。
摘要由CSDN通过智能技术生成

Scrapy添加代理爬取boss直聘,并存储到mongodb

最终爬取截图

在这里插入图片描述

项目创建

本项目使用的是Windows系统下的Pycharm平台,Python版本为3.6

使用scrapy startproject scrapy_boss创建scrapy项目

items

from scrapy import Item, Field

class BossItem(Item):
    company_name = Field()  #公司名称
    company_status = Field()  #公司规模
    company_address = Field()  #公司地址

    job_title = Field()  #职位名称
    job_salary = Field()  #薪酬
    job_detail = Field()  #职位描述、详情要求

    job_experience = Field()  #工作经验
    job_education = Field()  #学历要求
    job_url = Field()  #发布页面

Spider

  • 参数
class BossSpider(Spider):
   name = 'boss'
   allowed_domains = ['www.zhipin.com']
   # start_urls = ['http://www.zhipin.com/']

   headers = {
    
       'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
       'accept-encoding': 'gzip, deflate, br',
       'accept-language': 'zh-CN,zh;q=0.9',
       'cookie': '__c=1535347437; __g=-; __l=l=%2Fwww.zhipin.com%2Fc101010100%2Fh_101010100%2F%3Fquery%3D%25E7%2588%25AC%25E8%2599%25AB%25E5%25B7%25A5%25E7%25A8%258B%25E5%25B8%2588%26page%3D4%26ka%3Dpage-4&r=; Hm_lvt_194df3105ad7148dcf2b98a91b5e727a=1533949950,1534555474,1535095432,1535347437; lastCity=101010100; toUrl=https%3A%2F%2Fwww.zhipin.com%2Fjob_detail%2F%3Fquery%3Dpython%26scity%3D101010100%26industry%3D%26position%3D; JSESSIONID=""; Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a=1535348378; __a=5534803.1512627994.1535095432.1535347437.264.8.4.260',
       'referer': 'https://www.zhipin.com/job_detail/?query=python&scity=101010100&industry=&position=',
       'upgrade-insecure-requests': '1',
       'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
   }
  • 解析index页
    def 
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值