Xpath(python)

最新推荐文章于 2024-04-07 08:00:00 发布

生如夏花~之绚烂

最新推荐文章于 2024-04-07 08:00:00 发布

阅读量98

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_41663800/article/details/100088964

版权

python 专栏收录该内容

120 篇文章 1 订阅

订阅专栏

xpath常用规则

表达式	描述
nodename	选取此节点的所有子节点
/	从当前节点选取直接子节点
//	从当前节点选取子孙节点
.	选取当前节点
…或者parent::	选取当前节点的父节点
@	选取属性

etree模块（对html文档规范化补缺）

etree模块可以自动修正html文本，看下面实例代码

from lxml import etree
text = '  <div class="nav_com">
          <ul>
<li class="active"><a href="/">推荐</a></li>
<li class=""><a href="/nav/watchers">关注</a></li>
<li class=""><a href="/nav/career">程序人生</a></li>
<li class=""><a href="/nav/python">Python</a></li>   '
html = etree.HTML(text)
result = etree.tostring(html)#tostring输出字节流
print(result.decode('utf-8'))#解码后打印

也可以直接读取文件：

from lxml import etree

html = etree.parse('1.html', etree.HTMLParser())
result = etree.tostring(html)#tostring输出字节流
print(result.decode('utf-8'))#解码后打印