数据处理之XPATH提取数据--------常用方法

最新推荐文章于 2025-02-16 09:40:32 发布

西红市杰出青年

最新推荐文章于 2025-02-16 09:40:32 发布

阅读量2.7k

点赞数 4

文章标签： python 大数据开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_48441158/article/details/125483918

版权

**

etree数据处理之XPATH提取数据--------常用方法

**

parser = etree.HTMLParser(encoding=‘utf-8’)
html=etree.parse(‘A000000_table.html’,parser=parser)

/AAA 绝对路径表示必须以AAA开头

print(html.xpath(‘/html’)[0])

/AAA/BBB 选择AAA下面的所有BBB元素但是AAA必须是开头的元素

print(html.xpath(‘/html/body’)[0])

//AAA 文档中任意位置满足AAA的元素（无论层级关系）

//AAA//BBB 选择所有父元素是AAA的BBB元素
print(html.xpath(‘//table’)[0])

/AAA/BBB/CCC/* AAA下的BBB下的CCC 里面的所有元素

print(html.xpath(‘/html/body/table/*’)[0])

所有元素出现在任何地方的任何元素

print(html.xpath(‘//*’)[0])

选择AAA下的第一个BBB元素

print(html.xpath(‘/AAA/BBB[1]’))

选择AAA下的最后一个BBB元素

print(html.xpath(‘/AAA/BBB[last()]’))

//@id 获取所有的id属性

print(html.xpath(‘//@id’))

//BBB[@id]选择有id属性的BBB元素

print(html.xpath(‘//td[@id]’))

选择有任意属性的BBB元素

print(html.xpath(‘//BBB[@*]’))

选择没有属性的 BBB元素

print(html.xpath(‘//BBB[not(@*)]’))

//BBB[@id=xxx] id=xxx的BBB元素

print(html.xpath(“//td[@data-id=‘xxx’]”))

normallize-space 去掉空格之后

print(html.xpath(“//td[normalize-space(@data-id=‘xxx’])”))

//*[count(BBB)=2] #含有两个BBB子元素的元素

print(html.xpath(“//*[count(tr)=2]”))

//*[starts-with(name(),‘B’)] 选择所有名字以B开头的元素

print(html.xpath(“//*[starts-with(name(),‘t’)]”))

//*[contains(name(),‘B’)] 选择名字里带有B的元素

print(html.xpath(“//*[contains(name(),‘t’)]”))

//*[string-length(name())=3] 选择名字长度=3的元素

print(html.xpath(“//*[string-length(name())=3]”))

//BBB/parent:😗 选择BBB的父元素

print(html.xpath(“//tr/parent:😗”))

//BBB/ancestor:😗 选择BBB的祖先节点

print(html.xpath(“//td/ancestor:😗”))

//BBB/following-sibling:😗 选择BBB的下面的所有兄弟节点

print(html.xpath(“//td/following-sibling:😗”))

西红市杰出青年

博客等级

码龄5年

36
原创

215
点赞

170
收藏

151
粉丝

关注

私信

热门文章

分类专栏

正则表达式 2篇

最新评论

Ajax-Hook----详解
clx1263271985: 谢谢，分享。
Python是强类型还是弱类型
CSDN-Ada助手: 恭喜您写了第19篇博客！关于Python的强类型还是弱类型的讨论确实是一个很有意思的话题。不过我觉得接下来可以考虑写一些实际案例或者应用场景，结合代码来说明Python的类型系统对于实际开发的影响。希望能看到更多精彩的文章，加油！
Mysql删除表数据
CSDN-Ada助手: “恭喜您写了第20篇博客！Mysql删除表数据是一个很实用的主题，感谢您分享这样有用的知识。希望您能继续坚持创作，可以考虑写一些关于Mysql数据备份与恢复的文章，这也是很多人关心的话题。期待您的更多精彩内容！”
Python将超大文件转码为UTF-8编码格式
CSDN-Ada助手: 恭喜您在博客中成功分享了如何使用Python将超大文件转码为UTF-8编码格式，这对很多人来说将会是非常有用的技巧。希望您能继续分享更多关于Python编程的经验和技巧，或者可以考虑分享一些与编程相关的实际案例或者项目经验，这样能够让读者更好地理解和应用您所分享的知识。期待您的下一篇博客，谢谢您的分享！
Python分块读取大文件并返回一个二进制流整体
CSDN-Ada助手: "恭喜您能够持续创作，这篇关于Python分块读取大文件的博客内容很实用。不过我觉得接下来可以考虑分享一些关于优化代码性能或者实际应用场景的案例，让读者能够更深入地理解这个技术。期待您的下一篇作品，加油！"

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。