Scrapy中response介绍、属性以及内容提取

三亚天涯龙之主信息科技工作室

已于 2023-04-12 09:34:44 修改

阅读量6.3k

点赞数 4

分类专栏： python基础+进阶教程文章标签： scrapy 前端 html

于 2022-08-04 22:39:28 首次发布

本文链接：https://blog.csdn.net/godnightshao/article/details/126167926

版权

python基础+进阶教程专栏收录该内容

16 篇文章

订阅专栏

解析response

parse()方法的参数 response 是start_urls里面的链接爬取后的结果。所以在parse()方法中，我们可以直接对response对象包含的内容进行解析，比如浏览请求结果的网页源代码，或者进一步分析源代码内容，或者找出结果中的链接而得到下一个请求

一.response常用属性

url ：HTTP响应的url地址（str类）

status：HTTP响应的状态码（int类）

headers ：HTTP响应的头部, 类字典类型, 可以调用get或者getlist方法对其进行访问（dict类）

body：HTTP响应正文（bytes类）

text：文本形式的HTTP响应正文（str类）

encoding：HTTP响应正文的编码

reqeust：产生该HTTP响应的Reqeust对象

meta：即response.request.meta, 在构造Request对象时, 可将要传递给响应处理函数的信息通过meta参数传入, 响应处理函数处理响应时, 通过response.meta将信息提取出来

selector：Selector对象用于在Response中查找相关内容，以便于爬取

xpath(query)：XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。

css(query) ：CSS 指层叠样式表（Cascading Style Sheets）。在我们的 CSS 教程中，您将学习如何使用 CSS 同时控制整个站点的样式和布局。通过与 XHTML 结合，CSS 可以帮助我们实行表现与结构分离的开发模式。通过使用 CSS 来提升工作效率！

urljoin(url) ：用于构造绝对url, 当传入的url参数是一个相对地址时, 根据response.url计算出相应的绝对url.

二.Selector对象

Selector 对象和SelectorList对象都有以下几种方法。
extract() 返回选中内容的Unicode字符串
extract_first()(SelectorList独有)

返回列表中的第一个元素内容
re("正则表达式") 正则提取
re_first()(SelectorList独有)

返回列表中的第一个元素内容

三.CSS

response.css('css选择器')  返回值是Selector对象
response.css('css选择器').extract_first()   #获取一个

response.css('css选择器').extract()  # 获取全部

response.css('css选择器::attr(属性名)').extract()  # 获取其中某个属性

response.css('css选择器::text').extract()  #获取标签里的文本

四.xpath

response.xpath('xpath选择器')  返回值是Selector对象
response.xpath('xpath选择器').extract_first()   #获取一个

response.xpath('xpath选择器').extract()  # 获取全部

.//a[contains(@class,"link-title")/text()]  # 获取文本 text()
.//a[contains(@class,"link-title")/@href]   #获取属性 @class_name