scrapy学习笔记

最新推荐文章于 2022-11-04 08:00:00 发布

mingxiaoshan

最新推荐文章于 2022-11-04 08:00:00 发布

阅读量238

点赞数

分类专栏： scrapy python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012979457/article/details/78889334

版权

scrapy 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

Scrapy是一个爬虫框架，它包含engine、scheduler、downloader、spider和pipeline。它们的关系如图所示

Spider就是配置爬虫、解析网页的组件。可以用Selector内置的xpath、css、re来解析页面通过extract()函数返回unicode字符串列表，extract_first()返回unicode字符串。

Pipeline 就是存储数据的组件。在items.py里定义的item，pipeline.py处理返回的item，在settings.py里边激活pipeline。

Downloader Middlewares 处理产生的Request 和 Response，可增加useragent池、添加ip代理等功能

Spider Middlewares处理产生的request、response和item，可以增加cookie处理等功能

Request代表一个http请求，通常在Spider类中产生，然后传递给downloader，返回一个Response对象。

Request构造参数有url、callback、method、meta、body、headers、cookies、encoding、priority、don’t_filter、errback：

url是请求的网址。

callback是处理response的回调函数。

meta可以设置是否允许重定向、是否retry，cookiejar、下载超时、proxy

FormRequest是Request的子类，专门处理HTML表单，在formdata中添加post数据。

Response对象代表http响应，通常是downloader返回，交由Spider处理。

参数有url、headers、status、body、meta、flags

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。