from lxml import etree #https://mirrors.aliyun.com/pypi/simple/ python仓库 wb_data = """ <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-3"><a href="link4.html">fourth item</a></li> <li class="item-4"><a href="link5.html">fifth item</a></li> </ul> </div> """ #将变量读取为HTML对象,自动添加<html><body>... ...</body></html> html=etree.HTML(wb_data) #解析数据 /是根节点 data=html.xpath('/html') //子孙节点 data2=html.x
网络爬虫_xpath
最新推荐文章于 2023-06-17 09:13:39 发布
本文通过Python的lxml库展示了如何使用XPath解析HTML文档,包括选取节点、获取属性值、处理列表等内容,具体操作如选取li标签、获取a标签文本和href属性、处理位置节点等。
摘要由CSDN通过智能技术生成