Scrapy框架基于管道储存数据到本地文件流程、案例

最新推荐文章于 2022-03-20 20:18:32 发布

番茄西瓜汤

最新推荐文章于 2022-03-20 20:18:32 发布

阅读量1.5k

点赞数 1

分类专栏：爬虫文章标签： scrapy 爬虫

本文链接：https://blog.csdn.net/weixin_42329277/article/details/84112823

版权

爬虫专栏收录该内容

27 篇文章 3 订阅

订阅专栏

流程思路

将解析数据存到items对象
使用yield 将items交给管道文件处理
在管道文件pipelines编写代码储存
在setting配置文件开启管道

案例

`setting.py配置文件`

取消注释，数字为优先级

ITEM_PIPELINES = {
   'qiubaiPro.pipelines.QiubaiproPipeline': 300,  # 300优先级
}

`爬虫文件`

必须导入items 中的类
将数据录入item
用yield item提交给管道

import scrapy
from qiubaiPro.items import QiubaiproItem

class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'
    # allowed_domains = ['qiushibaike.com/text']  # 图片可能不是该域名下
    start_urls = ['https://www.qiushibaike.com/text/']  # https 要注意

    def parse(self, response):
        # 取段子列表
        div_list = response.xpath("//div[@id='content-left']/div")

        # 存储解析到的页面数据
        data_list = []
        for div in div_list:
            # xpath解析的内容存储到 selector对象中，获取内容.extract()
            # extract_first()获取内容  =  .extract()[0]
            author = div.xpath("./div/a[2]/h2/text()").extract()[0]  # 或extract_first()
            content = div.xpath(".//div[@class='content']/span/text()").extract_first()

            # 1.数据解析到items对象(先导入)
            item = QiubaiproItem()
            item['author'] = author
            item['content'] = content

            # 2.将item对象提交给管道
            yield item

`itmes.py`

把字段按语法注册

class QiubaiproItem(scrapy.Item):
    # 语法：  字段 = scrapy.Field()
    author = scrapy.Field()
    content = scrapy.Field()

`管道文件pipelines.py`

open_spide 开始时执行
close_spider结束执行

class QiubaiproPipeline(object):
    fp = None

    # 爬虫过程开始执行1次,用来打开文件
    def open_spider(self, spider):
        print('爬虫开始')
        self.fp = open('./qiubai_pipe.txt', 'w', encoding='utf-8')

    # 爬虫结束执行1次
    def close_spider(self, spider):
        print('爬虫结束')
        self.fp.close()

    # 对提交的item对象，进行存储
    # 爬虫每次提交item，该方法被执行一次
    def process_item(self, item, spider):
        # 1. 取出数据
        author = item['author']
        content = item['content']

        # 2. 存储
        self.fp.write(author + content + '\n\n\n')
        return item

番茄西瓜汤

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Scrapy框架基于管道储存数据到本地文件流程、案例

流程思路将解析数据存到items对象使用yield 将items交给管道文件处理在管道文件pipelines编写代码储存在setting配置文件开启管道案例setting.py配置文件取消注释，数字为优先级ITEM_PIPELINES = { 'qiubaiPro.pipelines.QiubaiproPipeline': 300, # 300优先级}爬虫文件...
复制链接

扫一扫