python-xpath页面解析

最新推荐文章于 2024-06-24 19:59:02 发布

淋巴不想动

最新推荐文章于 2024-06-24 19:59:02 发布

阅读量2.4k

点赞数 1

分类专栏： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43067754/article/details/87797973

版权

本文对比了正则表达式、XPath和BeautifulSoup在解析页面模块上的差异。XPath作为一种小型查询语言，速度相对较快，主要通过标签属性进行内容筛选。介绍了XPath的基本规则和运算符，举例说明如何使用XPath获取id为'url'的div中所有a标签的href属性。

摘要由CSDN通过智能技术生成

1. 解析页面模块比较:

正则表达式是进行内容匹配，将符合要求的内容全部获取；
xpath()能将字符串转化为标签，它会检测字符串内容是否为标签，但是不能检测出内容是否为真的标签；
Beautifulsoup是Python的一个第三方库，它的作用和 xpath 作用一样，都是用来解析html数据的相比之下;xpath的速度会快一点，因为xpath底层是用c来实现的

2.三者语法不同，正则表达式使用元字符，将所有获得内容与匹配条件进行匹配，而xpath和bs4将获取的解析后的源码进行按条件筛选，筛选出想要的标签即根据标签属性来找到指定的标签，之后对标签进行对应内容获取;

xpath：全称XML PATH Language, 一种小型的查询语言;

支持的解析：

XML格式
html格式
通过元素，和属性进行导航

xpath常用规则
在这里插入图片描述
xpath 常用运算符

import lxml.etree as etree

# 1). 将h

最低0.47元/天解锁文章

淋巴不想动

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
python-xpath页面解析

1. 解析页面模块比较:正则表达式是进行内容匹配，将符合要求的内容全部获取；xpath()能将字符串转化为标签，它会检测字符串内容是否为标签，但是不能检测出内容是否为真的标签；Beautifulsoup是Python的一个第三方库，它的作用和 xpath 作用一样，都是用来解析html数据的相比之下;xpath的速度会快一点，因为xpath底层是用c来实现的2.三者语法不同...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。