from lxml import etree wb_data = """ <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a> </ul> </div> """ #解析字符串为html对象,自动补全html。body html=etree.HTML(wb_data) #解析数据,a标签的文本 #写法一:text属性 data1 = html.xpath('/html/body/div/ul/li/a') for i in data1: print(i.text) #写法二
网络爬虫——xpath使用
最新推荐文章于 2022-08-10 09:14:45 发布
这篇博客介绍了如何在Python中使用lxml库的etree模块和XPath进行网络爬虫数据提取。通过示例展示了如何获取HTML元素的文本内容,自定义HTML解析器以及任意匹配和筛选具有特定属性的元素。
摘要由CSDN通过智能技术生成