scrapy框架的每个模块的用途

最新推荐文章于 2022-06-01 07:49:17 发布

鹿海园

最新推荐文章于 2022-06-01 07:49:17 发布

阅读量972

点赞数

分类专栏：爬虫文章标签：爬虫scrapy

原文链接：https://www.cnblogs.com/Dark-fire-liehuo/p/10078656.html

版权

爬虫专栏收录该内容

0 篇文章 0 订阅

订阅专栏

## 一、scrapy框架的每个模块的用途

1、spiders:

自定义爬虫

定义允许爬取的范围

定义开始爬取的url

parse:一定要重写

start_request：一般不需要重写，可以通过重写start_request进行模拟登陆

2、items

1）定义爬取的items域，是一个类字典的一个对象

如果在爬虫中定义了其他其他的键，即超过item的爬取范围，那么就会报错

2）其实可以通过在spider中定义一个空的字典来存储爬取的信息

3、middlewares:

主要是对请求request进行处理：process_request

如：添加随机user-agent,添加代理ip

注意：要在setting里面打开middlewares，否则无法调用其中的函数

4、pipeline:

主要功能是对Items进行存储

如：可存储在磁盘或者数据库

5、settings:

主要是定义一些全局变量或者公共变量，

可以在其他模块中获取所需要的settings变量

各个模块间参数的传递如下：

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
scrapy框架的每个模块的用途

## 一、scrapy框架的每个模块的用途1、spiders:自定义爬虫定义允许爬取的范围定义开始爬取的urlparse:一定要重写start_request：一般不需要重写，可以通过重写start_request进行模拟登陆2、items1）定义爬取的items域，是一个类字典的一个对象如果在爬虫中定义了其他其他的键，即超过item的爬取范围，那么就会报错2）其实可以通过在s...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。