python lxml xpath使用简单汇总

最新推荐文章于 2023-06-27 13:18:09 发布

VeeLe

最新推荐文章于 2023-06-27 13:18:09 发布

阅读量337

点赞数

分类专栏： python 文章标签： lxml

python 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

1.xpath 的作用和优势

将html解析未标签树，和Beautifulsoup一样,会自动补全缺失的标签。不同的是lxml是用c语言写的，速度会更快。

2.xpath 使用方式

# 1.html.fromstring  不会自动补全缺失标签
import requests
from lxml import html

SESSION_URL = 'https://github.com/session'
s = requests.session()
r = s.get(LOGIN_URL)
#转换成结构树
tree = html.fromstring(r.text)
el = tree.xpath('//input[@name="authenticity_token"]')[0]

# 2.etree.HTML
from lxml import etree
a = '''
<body>
    <h><a href='www.biaoti.com'>head</a></h>
    <p>段落1</p>
    <p>段落2</p>
</body>

html = etree.HTML(a)
html.xpath('//h') # [<Element h at 0x2122e64e4c8>]
'''

html = etree.HTML(a)

参考：
1.lxml.etree.HTML(text) 解析HTML文档
 2.xpath全面总结
 3.lxml.html 中几种解析器的区别（蛮详细的，虽然缺少总结，但是研究方式很棒）
4.（不合时宜得参考）查看python的模块和函数帮助文档方法
文1指出，fromstring 不支持残缺片段，不会自动补全

优惠劵

VeeLe

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python lxml xpath使用简单汇总

1.xpath 的作用和优势将html解析未标签树，和Beautifulsoup一样,会自动补全缺失的标签。不同的是lxml是用c语言写的，速度会更快。2.xpath 使用方式# 1.html.fromstring import requestsfrom lxml import htmlSESSION_URL = 'https://github.com/session's =...
复制链接

扫一扫