python etree xpath_Python 基于lxml.etree实现xpath查找HTML元素

最新推荐文章于 2023-09-24 19:56:23 发布

费米子父

最新推荐文章于 2023-09-24 19:56:23 发布

阅读量646

点赞数

文章标签： python etree xpath

本文链接：https://blog.csdn.net/weixin_36365168/article/details/113479757

版权

本文介绍了如何使用Python的lxml库中的etree模块通过XPath语法来查找HTML文档中的元素。通过示例代码展示了如何解析HTML字符串，获取特定节点以及遍历和输出元素内容。

摘要由CSDN通过智能技术生成

基于lxml.etree实现xpath查找HTML元素

By:授客 QQ：1033553122

#实践环境

WIN 10

Python 3.6.5

#实践代码

#!/usr/bin/env python

# -*- coding:utf-8 -*-

from lxml import etree

html_str = '''

'''

root_node = etree.HTML(html_str) # 解析HTML字符串，并返回HTML根结点

print('根节节点名称为：%s' % root_node.tag) # 输出 html

# 查找根节点

print(root_node.xpath('/html')) # 输出 ]

tr_element_list = root_node.xpath("//table/tr[2]/td") # 获取table元素节点下，第二个tr元素节点下的所有td元素

for element in tr_element_list:

print(element.tag, element.text)

/* for循环输出如下

td 衣服

td $241.10

td $50.20

etree.tostring(root_node, encoding='utf-8').decode('utf-8') ## 输出节点内容

second_tr = root_node.xpath('//table/tr[2]')[0] # 获取table元素节点下，第二个tr元素节点

print(etree.tostring(second_tr, encoding='utf-8').decode('utf-8')) ## 输出节点内容

衣服$241.10$50.20

# 注意：etree.tostring返回结果为字节对象

print(etree.tostring(second_tr)) ## 输出以下内容

\n 衣服\n $241.10\n $50.20\n \n '

print(etree.tostring(second_tr).decode('utf-8')) # 输出以下内容

衣服$241.10$50.20

#参考连接

https://lxml.de/tutorial.html#the-element-class

关注