第4章解析库的使用---Xpath

最新推荐文章于 2022-04-26 12:12:11 发布

锅巴QAQ

最新推荐文章于 2022-04-26 12:12:11 发布

阅读量289

点赞数

分类专栏： Python爬虫文章标签： lxml解析库的使用 Xpath

本文链接：https://blog.csdn.net/Pit3369/article/details/86583785

版权

本文介绍了如何利用lxml解析库中的XPath语法来选取XML文档中特定的节点，例如选取lang属性值为'eng'的title节点。

摘要由CSDN通过智能技术生成

lxml、Beautiful Soup、pyquery三个解析库

1、使用XPath

XML Path Language，XML路径语言。

举例：//title[@lang='eng']，选择所有名称为title，属性lang的值为eng的节点。

from lxml import etree
# 导入lxml库中的etree模块

html=etree.HTML(text)
# 调用HTML类进行初始构造XPath解析对象html
# 对于HTML文本中的不闭合节点，etree模块可自动修正HTML文本

result=etree.tostring(html)
# 输出修正后的HTML代码，结果为bytes类型

print(result.decoding('utf-8'))
# 将bytes类型转换为str类型

# 所有节点,xpath匹配以//开头
html=etree.parse('./test.html',etree.HTMLParse())
# ./test.html表示该文件夹下的test.html文件

result=html.xpath('//*')
# *代表匹配所有节点，整个html文本中所有节点都会被获取

result=html.xpath('//li')
# 匹配所有li节点，第一个节点索引为0

# 通过/或// 查找元素的子节点或者子孙节点
result

最低0.47元/天解锁文章

锅巴QAQ

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第4章解析库的使用---Xpath

lxml、Beautiful Soup、pyquery三个解析库1、使用XPathXML Path Language，XML路径语言。举例：//title[@lang='eng']，选择所有名称为title，属性lang的值为eng的节点。from lxml import etree# 导入lxml库中的etree模块html=etree.HTML(text)# 调用...
复制链接

扫一扫