scrapy笔记【3】[举栗子]

最新推荐文章于 2021-03-06 19:53:44 发布

Doris_H_n_q

最新推荐文章于 2021-03-06 19:53:44 发布

阅读量170

点赞数

分类专栏： scrapy

本文链接：https://blog.csdn.net/Dorisi_H_n_q/article/details/82698977

版权

scrapy 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

————举栗子：案例：腾讯招聘网自动翻页采集————

创建一个新的爬虫：

#scrapy startproject xxx(项目名)
scrapy startproject tcent
#scrapy genspider mytianya(爬虫名) "bbs.tianya.cn"(域名)
scrapy genspider tencent "tencent.com"

编写items.py

获取职位名称、详细信息、

class TencentItem(scrapy.Item):
    # define the fields for your item here like:
    jobTitle = scrapy.Field()
    jobCategories = scrapy.Field()
    number = scrapy.Field()
    location = scrapy.Field()
    releasetime = scrapy.Field()

编写tencent.py

# -*- coding: utf-8 -*-
import re

import scrapy
from Tencent import items

class MytencentSpider(scrapy.Spider):
    name = 'myTencent'
    allowed_domains = ['hr.tencent.com']
    start_urls = ['https://hr.tencent.com/position.php?lid=2218&start=0#a']

    def parse(self, response):
        for data in response.xpath("//tr[@class=\"even\"] | //tr[@class=\"odd\"]"):

            item = items.TencentItem()
            item["jobTitle"] = data.xpath("./td[1]/a/text()")[0].extract()
            item["jobLink"] = data.xpath("./td[1]/a/@href")[0].extract()
            item["jobCategories"] = data.xpath("./td[1]/a/text()")[0].extract()
            item["number"] = data.xpath("./td[2]/text()")[0].extract()
            item["location"] = data.xpath("./td[3]/text()")[0].extract()
            item["releasetime"] = data.xpath("./td[4]/text()")[0].extract()
            yield item

            for i in range(1, 200):
                newurl = "https://hr.tencent.com/position.php?lid=2218&start=%d#a" % (i*10)
                yield scrapy.Request(newurl, callback=self.parse)

编写pipeline.py文件

class TencentPipeline(object):
    def __init__(self):
        self.file = open("tencent.txt", "w", encoding="utf-8")

    def process_item(self, item, spider):
        line = str(item) + "\r\n"
        self.file.write(line)
        self.file.flush()
        return item

    def __del__(self):
        self.file.close()

在 setting.py 里设置ITEM_PIPELINES

ITEM_PIPELINES = {
"mySpider.pipelines.TencentJsonPipeline":300
}

执行爬虫：

scrapy crawl tencent

8、思考 parse()方法的工作机制：

1. 因为使用的yield，而不是return。parse函数将会被当做一个生成器使用。scrapy会逐一获取parse方法中生成的结果，并判断该结果是一个什么样的类型；
2. 如果是request则加入爬取队列，如果是item类型则使用pipeline处理，其他类型则返回错误信息。
3. scrapy取到第一部分的request不会立马就去发送这个request，只是把这个request放到队列里，然后接着从生成器里获取；
4. 取尽第一部分的request，然后再获取第二部分的item，取到item了，就会放到对应的pipeline里处理；
5. parse()方法作为回调函数(callback)赋值给了Request，指定parse()方法来处理这些请求 scrapy.Request(url, callback=self.parse)
6. Request对象经过调度，执行生成 scrapy.http.response()的响应对象，并送回给parse()方法，直到调度器中没有Request（递归的思路）
7. 取尽之后，parse()工作结束，引擎再根据队列和pipelines中的内容去执行相应的操作；
8. 程序在取得各个页面的items前，会先处理完之前所有的request队列里的请求，然后再提取items。
7. 这一切的一切，Scrapy引擎和调度器将负责到底。

Doris_H_n_q

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy笔记【3】[举栗子]

————举栗子：案例：腾讯招聘网自动翻页采集————创建一个新的爬虫：#scrapy startproject xxx(项目名)scrapy startproject tcent#scrapy genspider mytianya(爬虫名) "bbs.tianya.cn"(域名)scrapy genspider tencent "tencent.com"编写items.py获取...
复制链接

扫一扫