**
Python利用Scrapy爬取前程无忧
**
一、爬虫准备
Python:3.x
Scrapy
PyCharm
二、爬取目标
爬取前程无忧的职位信息,此案例以Python为关键词爬取相应的职位信息,通过Scrapy来爬取相应信息,并将爬取数据保存到csv文件中。
三、爬取步骤
1.创建一个新的爬虫项目。
2.定义我们要爬取的内容item类
import scrapy
class QcwyItem(scrapy.Item):
job_name = scrapy.Field()
company = scrapy.Field()
area = scrapy.Field()
salary = scrapy.Field()
pabulish_time = scrapy.Field()
3.配置settings.py
1)设置不遵守机器人协议
ROBOTSTXT_OBEY = False
2)设置请求头
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
&