————举栗子:案例:腾讯招聘网自动翻页采集————
- 创建一个新的爬虫:
#scrapy startproject xxx(项目名)
scrapy startproject tcent
#scrapy genspider mytianya(爬虫名) "bbs.tianya.cn"(域名)
scrapy genspider tencent "tencent.com"
- 编写items.py
获取职位名称、详细信息、
class TencentItem(scrapy.Item):
# define the fields for your item here like:
jobTitle = scrapy.Field()
jobCategories = scrapy.Field()
number = scrapy.Field()
location = scrapy.Field()
releasetime = scrapy.Field()
- 编写tencent.py
# -*- coding: utf-8 -*-
import re
import scrapy
from Tencent import items
class MytencentSpider(scrapy.Spider):
name = 'myTencent'
allowed_domains = ['hr.tencent.com']
start_urls = ['https://hr.tencent.com/position.php?lid=2218&start=0#a']
def parse(self, response):
for data in response.xpath("//tr[@class=\"even\"] | //tr[@class=\"odd\"]"):
item = items.TencentItem()
item["jobTitle"] = data.xpath("./td[1]/a/text()")[0].extract()
item["jobLink"] = data.xpath("./td[1]/a/@href")[0].extract()
item["jobCategories"] = data.xpath("./td[1]/a/text()")[0].extract()
item["number"] = data.xpath("./td[2]/text()")[0].extract()
item["location"] = data.xpath("./td[3]/text()")[0].extract()
item["releasetime"] = data.xpath("./td[4]/text()")[0].extract()
yield item
for i in range(1, 200):
newurl = "https://hr.tencent.com/position.php?lid=2218&start=%d#a" % (i*10)
yield scrapy.Request(newurl, callback=self.parse)
- 编写pipeline.py文件
class TencentPipeline(object):
def __init__(self):
self.file = open("tencent.txt", "w", encoding="utf-8")
def process_item(self, item, spider):
line = str(item) + "\r\n"
self.file.write(line)
self.file.flush()
return item
def __del__(self):
self.file.close()
- 在 setting.py 里设置ITEM_PIPELINES
ITEM_PIPELINES = {
"mySpider.pipelines.TencentJsonPipeline":300
}
- 执行爬虫:
scrapy crawl tencent
8、思考 parse()方法的工作机制:
- 1. 因为使用的yield,而不是return。parse函数将会被当做一个生成器使用。scrapy会逐一获取parse方法中生成的结果,并判断该结果是一个什么样的类型;
- 2. 如果是request则加入爬取队列,如果是item类型则使用pipeline处理,其他类型则返回错误信息。
- 3. scrapy取到第一部分的request不会立马就去发送这个request,只是把这个request放到队列里,然后接着从生成器里获取;
- 4. 取尽第一部分的request,然后再获取第二部分的item,取到item了,就会放到对应的pipeline里处理;
- 5. parse()方法作为回调函数(callback)赋值给了Request,指定parse()方法来处理这些请求 scrapy.Request(url, callback=self.parse)
- 6. Request对象经过调度,执行生成 scrapy.http.response()的响应对象,并送回给parse()方法,直到调度器中没有Request(递归的思路)
- 7. 取尽之后,parse()工作结束,引擎再根据队列和pipelines中的内容去执行相应的操作;
- 8. 程序在取得各个页面的items前,会先处理完之前所有的request队列里的请求,然后再提取items。
- 7. 这一切的一切,Scrapy引擎和调度器将负责到底。