tenliu的爬虫（7）-页面提取之xpath_从根结点开始解析所有<a>标签.-CSDN博客

本文链接：https://blog.csdn.net/TENLIU2099/article/details/84495063

本文介绍了XPath在Python爬虫中的应用，详细讲解了XPath的基本概念，包括节点关系、路径表达式、谓语筛选、XPath轴、运算符和函数。通过实例演示了如何使用lxml包进行页面解析，提取所需数据，并对比了string()和text()函数的差异。

摘要由CSDN通过智能技术生成

历史回顾

爬虫可以分成页面下载和页面解析两个部分

页面解析就是从源码中提取出我们需要的数据的过程

Xpath 用于在 XML 文档中通过元素和属性进行导航。

直白点说，xpath就是一种语法（一种约定的表示规范），在任何支持这种规范的项目中，使用xpath就可以对xml进行提取。（我自己很久前用c写过一个页面解析工具，就支持xpath语法）

一切皆节点（其实是DOM中的概念），即HTML或XML文档中所有内容都是节点：

除根节点外，每个节点都有一个父节点

当前元素节点包含的下一级元素节点和它的属性、文本都是这个元素的子节点

拥有相同父节点的结点叫做兄弟结点（一般都是指元素节点）

XPath 使用路径表达式在 XML 文档中选取节点。

在形式上XPath 路径表达式和文件系统很类似：

nodename（节点名称）	表示选择该节点即所有子节点
@属性名	表示选择属性
text()	表示选择文本

xpath的谓语，对节点进一步筛选。谓语在方括号"[]"中，格式：nodename[谓语]

路径表达式	解释
.//a[@rel]	从当前节点开始，选择所有含有rel属性的a标签
//a[@rel=“home”]	从根结点开始，选择所有rel属性值是home的a标签
`//a[@href="http://www.tenliu.top/"][@rel="home"]`	从根结点开始，选择所有rel属性值是home，且href属性值是http://www.tenliu.top/的a标签
./a[1]	从当前节点开始，在子节点中选择第一个a节点