Scrapy学习总结(七)——xpath选择器

最新推荐文章于 2023-01-31 11:56:43 发布

二十五六岁

最新推荐文章于 2023-01-31 11:56:43 发布

阅读量190

点赞数

分类专栏： scrapy 文章标签： scrapy xpath选择器

本文链接：https://blog.csdn.net/qq_40803626/article/details/88424388

版权

scrapy 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

0. 什么是 XPath?(w3cschool)

XPath 使用路径表达式在 XML 文档中进行导航
XPath 包含一个标准函数库
XPath 是 XSLT 中的主要元素
XPath 是一个 W3C 标准

0. XPath 路径表达式

XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档节点（或称为根节点）。

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>
	<book>
	  <title lang="en">Harry Potter</title>
	  <author>J K. Rowling</author> 
	  <year>2005</year>
	  <price>29.99</price>
	</book>	
</bookstore>

<bookstore> （文档节点）根节点
<author>J K. Rowling</author> （元素节点）
lang="en" （属性节点） 


详细查看http://www.w3school.com.cn/xpath/xpath_nodes.asp

了解就行—详细去看w3c

1. 开始学习

response.xpath('//@href')  提取所有链接

response.xpath('//ol//@href')  提取ol标签下所有的链接

标签[@属性名=‘属性值’] 限定属性提取
//ol[@class="page-navigator"]//@href
//ol[@id="page-navigator"]//@href

在这里插入图片描述

2. 提取标签里面的内容

表达式： //text()

>>> response.xpath("//title//text()").extract()
['SCRAPY爬虫实验室 - SCRAPY中文网提供']

3. 包含HTML标签的所有文字内容提取：string()

response.xpath(“string(//div[@class=‘post-content’])”).extract()

可看到我们没有使用：text()，而是用：string(要提取内容的标签)，这样的话就能把数据都提取出来了

在这里插入图片描述

二十五六岁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录