Scrapy学习总结(七)——xpath选择器

0. 什么是 XPath?(w3cschool)
  1. XPath 使用路径表达式在 XML 文档中进行导航
  2. XPath 包含一个标准函数库
  3. XPath 是 XSLT 中的主要元素
  4. XPath 是一个 W3C 标准
0. XPath 路径表达式
  1. XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档节点(或称为根节点)。

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>
	<book>
	  <title lang="en">Harry Potter</title>
	  <author>J K. Rowling</author> 
	  <year>2005</year>
	  <price>29.99</price>
	</book>	
</bookstore>

<bookstore> (文档节点)根节点
<author>J K. Rowling</author> (元素节点)
lang="en" (属性节点) 


详细查看http://www.w3school.com.cn/xpath/xpath_nodes.asp

了解就行—详细去看w3c在这里插入图片描述在这里插入图片描述在这里插入图片描述

在这里插入图片描述

1. 开始学习

response.xpath('//@href')  提取所有链接

response.xpath('//ol//@href')  提取ol标签下所有的链接

标签[@属性名=‘属性值’] 限定属性提取
//ol[@class="page-navigator"]//@href
//ol[@id="page-navigator"]//@href

在这里插入图片描述

2. 提取标签里面的内容

表达式: //text()

>>> response.xpath("//title//text()").extract()
['SCRAPY爬虫实验室 - SCRAPY中文网提供']

3. 包含HTML标签的所有文字内容提取:string()

response.xpath(“string(//div[@class=‘post-content’])”).extract()

可看到我们没有使用:text(),而是用:string(要提取内容的标签),这样的话就能把数据都提取出来了

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值