python爬虫xpath基本使用

最新推荐文章于 2025-11-26 15:40:52 发布

原创最新推荐文章于 2025-11-26 15:40:52 发布 · 1.1k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

在 Python 爬虫中，XPath 是一种强大的工具，用于在 HTML 或 XML 文档中定位元素。

1. 安装必要的库

首先需要安装requests和lxml库：pip install requests lxml

2. 基本 XPath 语法

XPath 使用路径表达式来选取 XML 文档中的节点或节点集。以下是一些常用的 XPath 表达式：

//tagname：选取所有tagname元素，无论它们在文档中的位置
/tagname：从根节点选取tagname元素
tagname[@attribute='value']：选取具有指定属性值的元素
tagname[position()]：选取指定位置的元素
.：选取当前节点
..：选取当前节点的父节点
@attribute：选取属性

3. 注意事项

处理动态内容：如果页面内容是通过 JavaScript 动态加载的，requests无法获取完整内容，需要使用 Selenium 等工具
避免频繁请求：爬虫可能会对目标网站造成压力，应合理设置请求间隔
遵守 robots.txt：爬取前应查看网站的 robots.txt 文件，了解爬取规则
异常处理：网络请求可能失败，需要适当的异常处理机制

4.进阶技巧

处理相对路径：使用.作为上下文节点
使用谓语：如//div[@id="content"][last()]选择最后一个具有特定 id 的 div
处理命名空间：XML 文档中可能存在命名空间，需要特殊处理
下面给大家演示一下Python 中使用 XPath 的示例：

接下来是实战案例：

我这里运用了面向对象的基本结构，并且使用了在线curl命令转代码来写入的headers和获取到的url

1.爬取赶集网数据

2.爬取懂车帝：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小夏缘

关注关注

11
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

万字博文教你python爬虫XPath库【详解篇】

孤寒者的博客

09-29

58万+

万字博文教你python爬虫XPath库【详解篇】

手把手教你使用python爬虫之xpath

景天科技苑

12-29

1万+

xpath表达式如何理解？html中的标签是遵从树状结构的。切记:xpath表达式中最好不要出现tbody标签，因为tbody标签可能是浏览器加的，可以通过查看网页源代码判断是否是真实的tbody！tbody可能是源代码自带的，也有可能是浏览器添加的可以通过右键，查看页面源代码，确定tbody是不是浏览器添加的，如果源代码中有tbody，那就时源代码中包含的如果没有那就是浏览器添加的使用方法。

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫——XPath的使用

万里顾一程的博客

07-29

8794

可以用xpath插件来动态的获取xpath路径（将鼠标悬停在需要选取的文本数据上，然后按下shift按键就会自动出现定位该文本的Xpath表达式，然后再根据需求对表达式修改。先发送请求访问网站，得到网站源码，然后解析网站源码，从网站源码中使用xpath表达式定位到需要下载的图片地址，然后用urllib.request.urlretrieve()方法下载。4、调用xpath路径，提取数据，xpath的返回数据是列表类型。2、发送请求访问网站，得到服务器响应的页面源码。使用实例二从网站上下载图片。.......

python爬虫中xpath的使用方法

让算法融入生活，改变生活！

05-17

4962

python爬虫中xpath的使用方法前言使用案例 01.通过对应的a标签获取a标签中的内容 02.获取指定路径下a标签的属性 03.获取绝对路径下a标签属性等于link2.html的内容 04.(相对路径)查找所有li标签下的a标签内容 05.相对路径获取标签的属性 06.相对路径下查特定属性的方法 07.查找倒数第二个li标签里的a标签的href属性在浏览器中获取xpath方法 ...

Python爬虫之xpath的基本使用（解析HTML详细介绍）

废人一枚的博客

02-29

3万+

尽情等待，很快就会更新，谢谢大家的观看。

（十八）Python爬虫：XPath的使用

带翅膀的猫的博客

08-22

6万+

&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;经历了爬取豆瓣电影TOP250数据我们会发现使用正则表达式其实并没有多么方便，有没有更加好的工具呢？答案当然是有的。接下来将使用三个篇幅分别介绍XPath,Beautiful Soup和pyquery

Python爬虫之xpath的详细使用（爬虫）

墨痕诉清风的博客

07-13

3万+

8、上面我们使用绝对路径，查找了所有a标签的属性等于href属性值，利用的是/---绝对路径，下面我们使用相对路径，查找一下l相对路径下li标签下的a标签下的href属性的值，注意，a标签后面需要双//。7、上面我们找到全部都是绝对路径（每一个都是从根开始查找），下面我们查找相对路径，例如，查找所有li标签下的a标签内容。3、获取某个标签的内容(基本使用)，注意，获取a标签的所有内容，a后面就不用再加正斜杠，否则报错。5、打印指定路径下a标签的属性（可以通过遍历拿到某个属性的值，查找标签的内容）

python爬虫之xpath入门

hjc_042043的博客

03-19

4582

XPATH（XML Path Language）,它可以在 XML 和 HTML文档中对元素和属性进行查找和遍历。XPath 使用路径表达式来选取 XML 文档中的节点或节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常类似。使用chrome 插件选择标签时候，选中时，选中的标签会添加属性class=“xh-highlight”

python爬虫之xpath的使用

weixin_44992737的博客

08-20

5697

python爬虫之xpath的使用

python爬虫之xpath的基本使用详解

09-20

Python爬虫中，XPath是一种强大的查询语言，用于在XML或HTML文档中查找和解析数据。XPath的全称是XML Path Language，它允许开发者通过路径表达式来选取XML文档中的节点，包括元素、属性、文本等。XPath在Python的...

100天精通Python（爬虫篇）——第116天：利用lxml与Xpath解析提取网页数据

最新发布

2509_93945719的博客

11-26

396

封装requests时踩过坑，最初简单包装成通用方法，后来发现不同模块需要不同的超时策略和重试机制。框架开发过程中最大的体会是：好的设计不是一次性完成的，而是在不断踩坑、重构中迭代出来的。记住，自动化测试的终极目标不是追求100%覆盖率，而是用最小成本快速发现质量问题。最直观的变化是测试周期从原来的3天缩短到8小时，版本发布再也不用全员熬夜了。pytest的夹具机制比unittest灵活太多，特别是parametrize参数化，能轻松实现数据驱动。决定动手搭个统一的测试框架，把乱七八糟的脚本规范起来。

Java总结进阶之路（基础二）

2509_94006474的博客

11-24

799

提示：java总结学习之路。

Python在机器学习中的模型训练

2509_93937153的博客

11-26

215

上周对比SVM和随机森林时，用Pipeline把预处理和训练步骤串起来，cross_val_score直接出十折交叉验证结果，整个实验可复现性极高。数据预处理这块绝对是重头戏。最近在做回归项目，r2_score和mean_squared_error这几个指标函数随调随用，省去了自己实现的麻烦。但平心而论，在常规业务场景下，从数据探索到模型上线的整个生命周期，Python的生态链确实做到了无缝衔接。很多库的默认参数就够用，想要精细调控又能深入底层，这种灵活性才是我们坚持用Python搞机器学习的根本原因。

【TensorRT】20250826 日志 - 开启FP16的问题

GG_Bruse的博客

11-23

257

博主最近遇到一个新模型需要转 Engine 的任务，打算采用 Ckpt - ONNX - Engine的方式，遇到了一些小问题，记录一下。

15：00开始面试，15：06就出来了，问的问题有点变态。。。

2301_78843735的博客

11-24

616

【摘要】本文分享了一位软件测试工程师的求职经历和面试经验。文章首先描述了作者遭遇降薪后寻求新工作的过程，并反思了在面试中因基础知识不足而失利的情况。随后系统整理了软件测试岗位的常见面试知识点，涵盖16个技术栈：包括测试理论、Linux、MySQL、Web/API/App测试、Python基础、性能测试等核心内容。其中详细列举了各技术栈的高频面试题，如测试步骤设计、Linux命令使用、Python编程题、MySQL优化等。最后提到完整的面试宝典包含近200页内容，旨在帮助求职者高效准备面试，提升通过率。

收藏！软件测试面试题

2401_86705770的博客

11-26

240

作为一位过来人也是希望大家少走一些弯路，如果你不想再体验一次学习时找不到资料，没人解答问题，坚持几天便放弃的感受的话，在这里我给大家分享一些自动化测试的学习资源，希望能给你前进的路上带来帮助。

Python全栈开发项目——AI智能聊天机器人

qiao_yue的博客

11-24

805

本项目实现了AI聊天功能，具有语音输入和聊天背景自定义等亮点功能

python爬虫xpath基本使用

1. 安装必要的库

2. 基本 XPath 语法

3. 注意事项

4.进阶技巧

下面给大家演示一下Python 中使用 XPath 的示例：

接下来是实战案例：

1.爬取赶集网数据

2.爬取懂车帝：