爬虫解析——Xpath

Cosophia

已于 2024-05-08 22:58:46 修改

阅读量436

点赞数 1

分类专栏：爬虫文章标签：爬虫

于 2024-04-18 00:09:45 首次发布

本文链接：https://blog.csdn.net/Cosophia/article/details/137845171

版权

4 篇文章 0 订阅

订阅专栏

本文介绍了XPath在XML文档中的定位功能，包括其路径表达式、节点选择规则，以及在Python中如何使用lxml库进行解析。后续将通过实例演示如何爬取和解析豆瓣电影网的电影信息。

摘要由CSDN通过智能技术生成

XPath使用路径表达式来描述节点的位置，这些路径表达式类似于文件系统中的路径。路径表达式由一个或多个步骤(step)组成，每个步骤描述了一个节点或一组节点。步骤可以使用关系运算符(如/和//)来连接，以便描述更复杂的节点位置。

XPath还提供了一些内置函数和运算符，可以对XML文档中的数据进行操作和计算。例如，可以使用XPath的数学函数来计算节点的数值，或使用字符串函数来处理节点的文本内容。

在Python中，XPath可以使用lxml库来实现。lxml提供了一个etree模块，该模块包含了XPath的实现，可以方便地对XML文档进行解析和操作，同时支持XPath语法。

表达式	描述
nodename	选取此节点的所有子节点
/	从根节点选取（取子节点）
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置（取子孙节点）
.	选取当前节点
..	选取当前节点的父亲点
@	选取属性