html 文本解码 xpath 获取html标签

最新推荐文章于 2024-07-16 23:41:48 发布

aiwplj5930

最新推荐文章于 2024-07-16 23:41:48 发布

阅读量138

点赞数

原文链接：http://www.cnblogs.com/guanong/p/10363545.html

版权

本文分享了使用Python中的etree模块与html模块解析HTML文本并进行解码的方法。通过XPath定位特定元素，并利用etree.tostring及html.unescape转换为可读字符串，实现了对网页数据的有效抓取。

摘要由CSDN通过智能技术生成

html 文本解码 xpath 获取html标签

import html
import etree

selector = etree.HTML(res)

url_h2 = selector.xpath("//a[@_stat='video:poster_v']/../h2")[0]
url_div = selector.xpath("//a[@_stat='video:poster_v']/../div")[0]
url_h2 = etree.tostring(url_h2).decode()
url_div = etree.tostring(url_div).decode()
print("******", url, url_img, html.unescape(url_h2), html.unescape(url_div))