为了在parse函数中,对response进行操作,下面列举了常用的response属性
-
response.url:当前响应的url地址
-
response.request.url:当前响应对应的请求的url地址
-
response.headers:响应头
-
response.request.headers:当前响应的请求头
-
response.body:响应体,也就是html代码,byte类型
-
response.status:响应状态码
-
response.xpath方法的返回结果是一个类似list的类型,其中包含的是selector对象,操作和列表一样,但是有一些额外的方法
额外方法extract():返回一个包含有字符串的列表
额外方法extract_first():返回列表中的第一个字符串,列表为空没有返回None
总结
- parse函数就是Scrapy在得到HTTP(s)响应之后回调的函数
- parse函数中默认的参数就是将响应数据封装为字典的对象,这个对象可以直接使用xpath进行数据的提取,使得在处理非结构化数据(一般指html文件)时非常方便
- 提取数据后传给管道对提取到的数据进一步操作