一、Request
Scrapy.http.Request类是scrapy框架中request的基类。它的参数如下:
-
url(字符串) - 此请求的URL
-
callback(callable)- 回调函数
-
method(string) - 此请求的HTTP方法。默认为’GET’。
-
meta(dict) - Request.meta属性的初始值。
-
body(str 或unicode) - 请求体。如果没有传参,默认为空字符串。
-
headers(dict) - 此请求的请求头。
-
cookies - 请求cookie。
-
encoding(字符串) - 此请求的编码(默认为’utf-8’)此编码将用于对URL进行百分比编码并将body抓换str(如果给定unicode)。
-
priority(int) - 此请求的优先级(默认为0),数字越大优先级越高。
-
dont_filter(boolean) - 表示调度程序不应过滤此请求。
-
errback(callable) - 在处理请求时引发任何异常时将调用的函数。
-
flags(list) - 发送给请求的标志,可用于日志记录或类似目的
from scrapy.http import Request,FormRequest
req=Request("http://www.baidu.com",headers={
"spider":666},meta={
"name":"爬虫"})
#功能构造请求
#参数
#请求对象
print(req.url) #http://www.baidu.com
print(req.method) #GET
print(req.headers) #{b'Spider': [b'666']}
print(req.meta) #{'name': '爬虫'}
rer=req.replace(url="https://www.baidu.com")
print(rer.url) #https://www.baidu.com
二、FormRequest
get请求和post请求是最常见的请求。scrapy框架内置了一个FormRequest类
它扩展了基类Request,具有处理HTML表单的功能。
在使用scrapy发动POST请求的时候,常使用此方法,能较方便的发送请求.具体的使用,见登录github案例;
三、Response
url(字