xpath总结

1、Xpath介绍


XML路径语言(XML Path Language),它是一种基于XML的树状结构,在数据结构树中找寻节点,确定XML文档中某部分位置的语言。
需要把源文件转成树状结构,再对树状结构应用相应的xpath查询语句
基本语法
使用Xpath需要从lxml库中导入etree模块,还需使用HTML类对需要匹配的HTML对象进行初始化(XPath只能处理文档的DOM表现形式)。

HTML类的基本语法格式如下。

lxml.etree.HTML(text, parser=None, *, base_url=None)

2、XPath

a、XPath是XML Path的简称,它是一种用来确定XML文档中某部分位置的语言。

b、lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,使用前先安装

pip install lxml

3、xpath选取节点

表达式描述
nodename选取此节点的所有子节点。
/从根节点选取(取子节点)。
//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置(取子孙节点)。
.选取当前节点。
..选取当前节点的父节点。
@选取属性。

4、xpath的数据类型

a、节点集

节点集是通过路径匹配返回的符合条件的一组节点的集合。其它类型的数据不能转换为节点集。

b、布尔值

由函数或布尔表达式返回的条件匹配值,与一般语言中的布尔值相同,有true和false两个值。布尔值可以和数值类型、字符串类型相互转换。

c、字符串

字符串即包含一系列字符的集合,xpath中提供了一系列的字符串函数。字符串可与数值类型、布尔值类型的数据相互转换。

d、数值

在xpath中数值为浮点数,可以是双精度64位浮点数。数值也可以和布尔类型、字符串类型相互转换。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
使用BeautifulSoup库获取xpath的内容是不直接支持的,因为BeautifulSoup是一个用于解析HTML和XML文档的库,而xpath是一种用于在XML文档中定位元素的查询语言。然而,你可以使用BeautifulSoup和xpath结合使用来实现这个功能。 首先,你需要使用BeautifulSoup解析HTML或XML文档,得到一个BeautifulSoup对象。然后,你可以使用BeautifulSoup对象的find_all方法来查找符合特定条件的元素。在find_all方法中,你可以使用标签名、属性名和属性值等来指定要查找的元素。 例如,假设你有一个BeautifulSoup对象soup,你想要获取所有a标签的href属性值,你可以使用以下代码: ``` links = soup.find_all('a') for link in links: href = link.get('href') print(href) ``` 这样就可以获取到所有a标签的href属性值了。 需要注意的是,BeautifulSoup的find_all方法返回的是一个列表,你可以通过遍历列表来获取每个元素的属性值或文本内容。 希望这个回答对你有帮助!\[1\] \[2\] \[3\] #### 引用[.reference_title] - *1* [Python爬虫常用库requests、beautifulsoup、selenium、xpath总结](https://blog.csdn.net/qq_45176548/article/details/118187068)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [BeautifulSoup 与 Xpath](https://blog.csdn.net/kermitJam/article/details/82634865)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [python爬虫之bs4解析和xpath解析](https://blog.csdn.net/m0_52656075/article/details/122896071)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值