python爬虫：Xpath解析

最新推荐文章于 2024-07-25 18:55:58 发布

日行月白

最新推荐文章于 2024-07-25 18:55:58 发布

阅读量1.1k

点赞数 21

文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_77033793/article/details/136969434

版权

一、前言

lxml库是一个高性能的Python库，用于处理XML和HTML文档。它提供了一套丰富的API，可以用于解析、提取、修改和创建XML和HTML内容。lxml库的主要特点包括：

高效的解析性能：lxml是用C语言实现的，因此在解析大型文档时具有很高的效率。
支持XPath和XSLT：lxml支持XPath 1.0，这是一种在XML文档中查找信息的语言，同时也支持XSLT，这是一种用于转换XML文档的语言。
易于使用：lxml提供了简单的API，使得对XML和HTML的操作变得直观和方便。
灵活的解析方式：lxml支持多种解析方式，包括但不限于DOM解析和SAX事件驱动解析。
兼容性：lxml可以解析不符合标准的XML文档，并且能够处理HTML文档中的不规则标记。

二、lxml库简介

Ixml 库的大部分功能是由 etree 模块提供的。

使用 XPath 解析网页时，首先需要调用etree 模块下的HTML 类对 HTTP 响应的网页进行初始化 (etree, HTM())从而构造Element 类型的XPath 解析对象；

然后使用 XPath 对 Element 对象进行节点选择，最后返一个回一个列表。若 HTML中的节点没有闭合，ctree 模块还可提供自动补全功能。

三、通过路径选择节点

xpath通过路径选择节点常用的用法
格式	示例	说明
/	div/div	选取div节点下的所有div子节点
//	div//div	选取div节点下的所有div子孙节点
*	div/*	选取div节点下的所有

最低0.47元/天解锁文章

关注

21
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
python爬虫：Xpath解析

Ixml 库的大部分功能是由 etree 模块提供的。使用 XPath 解析网页时，首先需要调用etree 模块下的HTML 类对 HTTP 响应的网页进行初始化 (etree, HTM())从而构造Element 类型的XPath 解析对象；然后使用 XPath 对 Element 对象进行节点选择，最后返一个回一个列表。若 HTML中的节点没有闭合，ctree 模块还可提供自动补全功能。
复制链接

扫一扫

日行月白 CSDN认证博客专家 CSDN认证企业博客

码龄1年

6: 原创

153万+: 周排名

15万+: 总排名

3890: 访问

: 等级

148: 积分

77: 粉丝

88: 获赞

0: 评论

45: 收藏

私信

关注

热门文章

最新评论

day2在python中学会总结：代码格式、标识符和关键字及变量和数据类型
CSDN-Ada助手: 非常棒的博客！看到你在学习Python的过程中能够总结出这么详细的内容，真的很令人钦佩。继续努力写下去吧，相信你的经验和心得会对更多人有所帮助。除了代码格式、标识符和关键字、变量和数据类型，你可能还想了解一些其他与Python编程密切相关的知识，比如函数、循环、条件语句等等。这些内容都是编程中非常重要的基础，希望你能够继续学习和总结，不断提升自己的技能。期待看到你更多的精彩分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
day1在python中学会总结：快捷键的使用
CSDN-Ada助手: 恭喜你开始博客创作！学会使用快捷键是提高效率的重要一步，希望你在Python学习的道路上不断进步。下一步可以尝试分享一些实际编程经验或者解决问题的方法，相信会对更多人有所帮助。继续加油哦！期待你更多精彩的分享。祝你越来越喜欢Python编程！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。