Python利用Scrapy爬取前程无忧

本文介绍了如何使用Python的Scrapy框架爬取前程无忧网站上的Python相关职位信息,包括爬虫项目的创建、item类定义、settings配置、爬取函数编写以及数据保存到csv文件的完整步骤。
摘要由CSDN通过智能技术生成

**

Python利用Scrapy爬取前程无忧

**

一、爬虫准备
Python:3.x
Scrapy
PyCharm
二、爬取目标
爬取前程无忧的职位信息,此案例以Python为关键词爬取相应的职位信息,通过Scrapy来爬取相应信息,并将爬取数据保存到csv文件中。
三、爬取步骤
1.创建一个新的爬虫项目。
在这里插入图片描述
2.定义我们要爬取的内容item类

import scrapy

class QcwyItem(scrapy.Item):
    
    job_name = scrapy.Field()
    company = scrapy.Field()
    area = scrapy.Field()
    salary = scrapy.Field()
    pabulish_time = scrapy.Field()

3.配置settings.py
1)设置不遵守机器人协议

ROBOTSTXT_OBEY = False

2)设置请求头

DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  &
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值