Python爬虫5.3 — scrapy框架spider[Request和Response]模块的使用

最新推荐文章于 2024-08-05 13:40:19 发布

ZhiHuaWei

最新推荐文章于 2024-08-05 13:40:19 发布

阅读量1.9k

点赞数 2

分类专栏： Python爬虫 Python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/Zhihua_W/article/details/103760507

版权

Python 同时被 2 个专栏收录

32 篇文章 7 订阅

订阅专栏

Python爬虫

26 篇文章 20 订阅

订阅专栏

Python爬虫5.3 — scrapy框架spider[Request和Response]模块的使用

综述

本系列文档用于对Python爬虫技术的学习进行简单的教程讲解，巩固自己技术知识的同时，万一一不小心又正好对你有用那就更好了。
Python 版本是3.7.4

我们在前面学习reuqests库的时候是如何进行翻页请求的？首先找到下一页地址，然后再使用requests.get(next_url)进行请求获取。那么我们在Scrapy框架中如何对下页进行构造请求的呢？本篇讲解如何构造请求模块。

Request对象

在第一篇入门文章中我们已经在爬取糗百实例中实现了下一页请求获得的功能在爬虫中增加下面代码即可：

    # 获取下一页地址
    next_url = response.xpath('//ul[@class="pagination"]/li[last()]/a/@href').get()
    if not next_url:
        # 没有下一页地址结束爬虫
        return
    else:
        # 将下一页请求返回给调度器
        yield scrapy.Request(self.base_url + next_url, callback=self.parse)

scrapy.Request()函数讲解：

scrapy.Request(url, callback=None, method='GET', headers=None, body=None, cookies=None, meta=None, encoding='utf-8', priority=0, dont_filter=False, errback=None, flags=None, cb_kwargs=None)

Request对象再我们写爬虫，爬取一页的数据徐娅重新发送一个请求的时候调用，这个类需要传递一些参数，其中比较常用的参数有：

url : 这个request对象发送请求的url。
callback : 在下载器下载完成相应的数据后执行的回调函数。
method ：请求的方法，默认为GET方法，可以设置为其他方法。
headers : 请求头，对于一些固定的设置放在setting.py中指定就可以了；对于那些非固定的，可以在发送请求的时候指定。
meta : 比较常用，用于不同的请求之间传递数据用的。
encoding : 编码，默认为utf-8，使用默认的就可以了。
dont_filter : 表示不由调度器过滤，让scrapy的去重不会过滤当前url，可以执行多次重复的请求。
errback : 请求失败在发生错误的时候执行的回调函数。
其他的参数就不再介绍。

Response对象

Response对象一般是有Scrapy给你自动构建的，因此开发者不需要关心如何创建Response对象，而是如何使用它。Response对象有很多属性，可以用来提取数据的，主要有以下属性：

meta : 从其他请求传过来的meta属性，可以用来保持多个请求之间的数据链接。
encoding : 返回当前字符串编码和解码格式。
text : 将返回来的数据作为urlcode字符串返回。
body : 将返回来的数据作为bytes字符串返回。
xpath : xpath解析器。
css ： css选择器。

发送POST请求

有时候我们想要在请求数据的时候发送post请求，那么这时候需要使用Request的子类FormRequest来实现。如果想要在爬虫一开始的时候就发送POST请求，那么需要在爬虫类中重写start_request(self)方法，并且不再调用start_urls里的url。

模拟登陆

模拟登陆人人网

import scrapy


class RenrenSpider(scrapy.Spider):
    name = 'renren'
    allowed_domains = ['renren.com']
    start_urls = ['http://renren.com/']

    def start_requests(self):
        url = 'http://www.renren.com/PLogin.do'
        data = {
            'email': '1883****357',
            'password': '********'
        }
        request = scrapy.FormRequest(url=url, formdata=data, callback=self.parse_page)
        yield request

    @staticmethod
    def parse_page(self, response):
        with open('renren.html', 'w', encoding='utf-8') as fp:
            fp.write(response.text)