etree.HTML():构造了一个XPath解析对象并对HTML文本进行自动修正。
etree.HTML模块可以自动修正HTML文本
etree.tostring():输出修正后的结果,类型是bytes
tostring()
方法即可输出修正后的HTML代码,但是结果是bytes类型。这里利用decode()
方法将其转成str类型
代码如下
content = html.xpath('//div[@class="weibo-text"]')
print(etree.tostring(content[0], encoding='utf-8', pretty_print=True, method="html").decode('utf-8'))