xpath学习

最新推荐文章于 2024-10-04 18:47:42 发布

qq_33491099

最新推荐文章于 2024-10-04 18:47:42 发布

阅读量116

点赞数

文章标签：数据挖掘大数据 xpath

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33491099/article/details/108078377

版权

xpath解析

xpath解析：最常用最便捷高效的一种解析方式，通用性强，适合各种语言。

xpath解析原理（类似bs4，实现标签的定位）

实例化一个etree对象，并且需要将被解析的页面源码数据加载到该对象中；
调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获；

环境的安装

安装解析器
```
pip install lxml
```

实例化一个etree对象

首先要导入etree类
```
from lxml import etree
```
- 方式一：将本地的html文档中的源码数据加载到etree对象中
```
etree.parse(filepath)
```
- 方式二：可以将从互联网上获取的源码数据加载到该对象中
```
etree.HTML('page_text')
```

使用xpath表达式进行解析

xpath(‘xpath表达式’)
- .：表示的当前层级
- /：最左侧的’/‘表示从根节点开始定位，中间’/'表示层级关系
- //：最左侧的’//‘表示从任意位置开始定位，中间’//'表示多个层级
- 属性定位：tag[@attrName=‘attrValue’]，例如：//div[@class=‘song’]
- 索引定位：tag[index]，注意索引是从1开始的，例如： //div[@class=‘song’]/p[index]
- 取文本：
1. /text() 获取的是标签中的直系文本内容
2. //text() 获取的是标签中的所有文本内容
- 取属性：@attrName，例如：//div[@class=‘song’]/img/@src

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

qq_33491099 CSDN认证博客专家 CSDN认证企业博客

码龄9年

2: 原创

125万+: 周排名

30万+: 总排名

217: 访问

: 等级

22: 积分

1: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

最新文章

IntelliJ IDEA 配置maven工程

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

qq_33491099 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。