Scrapy框架学习_day02

君子以阅川

已于 2023-02-18 10:23:36 修改

阅读量514

点赞数

分类专栏： # Scrapy框架文章标签：爬虫 python pycharm

于 2021-10-09 21:55:13 首次发布

本文链接：https://blog.csdn.net/m0_56104219/article/details/120678874

版权

Scrapy框架专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

解析步骤
保存数据
数据建模

解析步骤

对于一个scrapy的实现的步骤

1.修改起始url
2.验证域名
3.在parse中实现爬取逻辑

在这里插入图片描述

其中的response为url经过Doloader加载后返回的对象
类型为<class 'scrapy.http.response.html.HtmlResponse'>

        print(response.url) # 响应的url
        print(response.request.url)# 返回响应的请求的url
        print(response.headers)
        print(response.request.headers)
        print(response.body)

在其中封装了xpath方法，即可以通过xpath方法来对源代码进行解析

实现一个例子，将Itcast中的所有教师信息进行爬取

在这里插入图片描述
分析得到每个教师信息都在一个div class =“li_txt”的标签下面
则代码为

    def parse(self, response):
        # 获取所有教师节点
        all_teacher = response.xpath('//div[@class="li_txt"]')#获取每一个教师节点，response有xpath方法
        for tea in all_teacher:
            name = tea.xpath('./h3/text()').get()# 教师姓名
            title = tea.xpath('./h4/text()').get()# 教师职位
            desc = tea.xpath('./p/text()').get()# 教师简介

保存数据

这里是在Spider模块中，要想保存数据就要将数据传递到ItemPipeline中进行保存
我们会想到将数据return到Engine中不就可以了么，但是return只能返回一次，如果想翻页，将多个url的数据进行返回，一次可能不太够，这时就要用到yield了

	yield {'name':name,'title':title,'desc':desc}# 返回数据

数据这样就返回到ItemPipeline中了

保存数据的步骤，

1.在pipelins.py文件中自定义一个类
2.该类重写process_item方法
3.在process_item中处理
4.完的数据一定要返回给Engine，即return item
5.在settings.py文件中配置相关的管道变量

class ScrapyTextPipeline:
    def process_item(self, item, spider):# 这里的item就为上面yield返回的对象
		print(item['name'],item['title'],item['desc'])
        return item

在这里插入图片描述

将其注释全部取消即可
这是一个字典，只有传入创建的不同的管道类，后面的value的值越小执行优先级越高（0-500）之间的数

让后执行命令就可以打印相关信息了
在这里插入图片描述
保存数据是要在return item之前进行

因为数据是一条一条传输的，所以文件不能每次传过来一个数据就要打开关闭一次
因为创建的是一个类，可以实现类方法来对文件进行打开关闭

class ScrapyTextPipeline:
    def __init__(self):# 构造函数
        self.file = open('Itcast.json', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        self.file.write(json.dumps(item,ensure_ascii=False) + ',\n')

        return item

    def __del__(self):# 析构函数
        self.file.close()