使用XPath提取网页信息的理论知识

最新推荐文章于 2024-05-06 12:53:06 发布

Triumph19

最新推荐文章于 2024-05-06 12:53:06 发布

阅读量994

点赞数 1

文章标签： python xpath xml html

本文链接：https://blog.csdn.net/Triumph19/article/details/118482309

版权

XPath使用路径表达式来选取HTML文档中的节点或者节点集。这些路径表达式和我们在常规的计算机文件系统中看到的表达式非常相似。
例如，在Windows系统中，要指明桌面上的文件hello.py的路径，通常可以写成C:\Users\tao\Desktop\hello.py,从C盘开始，使用反斜杠（)逐级向下查找，直到找到最终的目标。

pip install lxml

# 导入lxml库的etree模块
from lxml import etree

# 解析movies.html文件，返回一个节点树的对象
html_selector = etree.parse("movies.html",etree.HTMLParser())

# 获取根节点html的元素
root = html_selector.xpath("/html")
print(root)

[<Element html at 0x17b537de4c0>]

# 斜杠（/)获取节点title
title = html_selector.xpath("/html/head/title")
print(title)

[<Element title at 0x29f2299d600>]

# text()获取节点title的文本
title_name = html_selector.xpath("/html/head/title/text()")
print(title_name)

['电影排行']

电影名称所在的p节点相对根节点很远，如果从根节点逐层开始往下查找，XPath的表达式就会很长，如/html/body/div/div/p/text()。使用双斜杆（//)可以不考虑位置，获取页面中所有符合规则的子孙节点。

movie_name = html_selector.xpath("//p/text()")
print(movie_name)

['1. 肖生克的救赎', '2. 霸王别姬']

name = html_selector.xpath("/html//div[@id='content']/h1/text()")

['1. 肖生克的救赎', '2. 霸王别姬']

# 使用@获取属性的值
meta = html_selector.xpath("//meta/@charset")
print(meta)

['UTF-8']

attr = html_selector.xpath("//h1/../@id")
print(attr)

运行结果如下：

['content']

有时需要查找某个特定的节点或包含某个指定值的节点，如获取属性id为content的div元素，或者获取p节点的文本等，如果使用XPath路径表达式，实现起来就比较困难，这时就需要用到谓语了。谓语被嵌套在方括号（[])中，用于查找特定节点或指定值的节点。

关注