爬虫学习笔记（九）—— Scrapy框架（四）：FormRequest、日志

最新推荐文章于 2024-03-03 15:41:35 发布

原创

最新推荐文章于 2024-03-03 15:41:35 发布 · 1.4k 阅读

5 ·

CC 4.0 BY-SA版权

一、Request

Scrapy.http.Request类是scrapy框架中request的基类。它的参数如下：

url（字符串） - 此请求的URL
callback（callable）- 回调函数
method（string） - 此请求的HTTP方法。默认为’GET’。
meta（dict） - Request.meta属性的初始值。
body（str 或unicode） - 请求体。如果没有传参，默认为空字符串。
headers（dict） - 此请求的请求头。
cookies - 请求cookie。
encoding（字符串） - 此请求的编码（默认为’utf-8’）此编码将用于对URL进行百分比编码并将body抓换str（如果给定unicode）。
priority（int） - 此请求的优先级（默认为0）,数字越大优先级越高。
dont_filter（boolean） - 表示调度程序不应过滤此请求。
errback（callable） - 在处理请求时引发任何异常时将调用的函数。
flags（list） - 发送给请求的标志，可用于日志记录或类似目的

from scrapy.http  import  Request,FormRequest

req=Request("http://www.baidu.com",headers={
   
   "spider":666},meta={
   
   "name":"爬虫"})
#功能构造请求
#参数
#请求对象
print(req.url)  #http://www.baidu.com
print(req.method)   #GET
print(req.headers)   #{b'Spider': [b'666']}
print(req.meta)  #{'name': '爬虫'}
rer=req.replace(url="https://www.baidu.com")
print(rer.url)   #https://www.baidu.com