xpath获取该节点下(所有标签和文本组成的字符串)
需要获取子标签以及文本内容时使用此方法,如果只是想获取所有子标签里面的文本,参考另一篇博客。
from lxml import etree
html = """<div class="box"><h1> Keywords <span></span></h1><div><p>关键字内容</p></div></div>"""
doc = etree.HTML(html)
msg = doc.xpath("//div[@class='box']")[0]
html_str = etree.tostring(msg, encoding='utf8', method='html').decode()
print(html_str)
打印结果如图所示: