xpath在HTML解析中的应用（加强版）

最新推荐文章于 2024-03-26 07:30:00 发布

猛禽

最新推荐文章于 2024-03-26 07:30:00 发布

阅读量2.4w

点赞数

分类专栏：动态语言（Python...）文章标签： html 文档 div xhtml import binding

本文链接：https://blog.csdn.net/Raptor/article/details/4516441

版权

本文介绍了如何利用lxml库中的HTML解析函数，结合XPath表达式，处理不规范的HTML文档。通过示例展示了XPath在查找、过滤元素方面的灵活性，包括根据ID、属性和层级关系进行定位。

摘要由CSDN通过智能技术生成

经过一番研究以后才发现原来libxml2其实已经内置了对HTML的解析——即使是不很规范的HTML。所以上篇《xpath在XHTML解析中的应用》完全是我学艺不精的产物。囧

不过好处是顺便学习到了j7a7c7k7 兄推荐的tidy（用的是令狐提供的µTidylib ），这也是个好东东。

现在来看如何直接使用lxml（即前文说过的libxml2的一个python binding）处理那个样本“页面 ”：

import codecs

from lxml import etree



f=codecs.open("raptor.htm","r","utf-8")

content=f.read()

f.close()

tree=etree.HTML(content)

Bingo！果然成功。关键就在于etree提供了HTML这个解析函数。之后的事情就好办多了，因为可以直接对HTML使用xpath。

不过这个样本页面中要解析的部分有一个问题就是：那个ul节点没有id，所以只好麻烦一点了。

完整的xpath应该是这样写的（注意，原文件中

关注

专栏目录