这是一个关于使用lxml.etree进行XML处理的教程。它简要概述了ElementTree API的主要概念,以及一些简单的增强功能,使您作为程序员的生活更轻松。
有关API的完整参考,请参阅生成的API文档。
内容
本文章主要介绍的是使用XPath查找文本和树迭代
使用XPath查找文本
提取树的文本内容的另一种方法是XPath,它还允许您将单独的文本块提取到列表中:
打印(HTML 。XPath的(“字符串()” )) 仅#lxml.etree!
TEXTTAIL打印(HTML 。XPath的(“//文本()” )) 仅#lxml.etree!
[‘TEXT’,‘TAIL’]
如果你想更频繁地使用它,你可以将它包装在一个函数中:
build_text_list = etree 。XPath (“// text()” ) #lxml.etree!
print (build_text_list (html ))
[‘TEXT’,‘TAIL’]
请注意