0. 什么是 XPath?(w3cschool)
- XPath 使用路径表达式在 XML 文档中进行导航
- XPath 包含一个标准函数库
- XPath 是 XSLT 中的主要元素
- XPath 是一个 W3C 标准
0. XPath 路径表达式
- XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。
在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档节点(或称为根节点)。
<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore>
<book>
<title lang="en">Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
</bookstore>
<bookstore> (文档节点)根节点
<author>J K. Rowling</author> (元素节点)
lang="en" (属性节点)
详细查看http://www.w3school.com.cn/xpath/xpath_nodes.asp
了解就行—详细去看w3c
1. 开始学习
response.xpath('//@href') 提取所有链接
response.xpath('//ol//@href') 提取ol标签下所有的链接
标签[@属性名=‘属性值’] 限定属性提取
//ol[@class="page-navigator"]//@href
//ol[@id="page-navigator"]//@href
2. 提取标签里面的内容
表达式: //text()
>>> response.xpath("//title//text()").extract()
['SCRAPY爬虫实验室 - SCRAPY中文网提供']
3. 包含HTML标签的所有文字内容提取:string()
response.xpath(“string(//div[@class=‘post-content’])”).extract()
可看到我们没有使用:text(),而是用:string(要提取内容的标签),这样的话就能把数据都提取出来了