网络爬虫——xpath使用

最新推荐文章于 2022-08-10 09:14:45 发布

钱与快乐齐消失

最新推荐文章于 2022-08-10 09:14:45 发布

阅读量199

点赞数

文章标签：爬虫

本文链接：https://blog.csdn.net/m0_64181803/article/details/124085669

版权

这篇博客介绍了如何在Python中使用lxml库的etree模块和XPath进行网络爬虫数据提取。通过示例展示了如何获取HTML元素的文本内容，自定义HTML解析器以及任意匹配和筛选具有特定属性的元素。

摘要由CSDN通过智能技术生成

from lxml import etree

wb_data = """
        <div>
            <ul>
                 <li class="item-0"><a href="link1.html">first item</a></li>
                 <li class="item-1"><a href="link2.html">second item</a></li>
                 <li class="item-inactive"><a href="link3.html">third item</a></li>
                 <li class="item-1"><a href="link4.html">fourth item</a></li>
                 <li class="item-0"><a href="link5.html">fifth item</a>
             </ul>
         </div>
        """
#解析字符串为html对象，自动补全html。body
html=etree.HTML(wb_data)

#解析数据，a标签的文本
#写法一：text属性
data1 = html.xpath('/html/body/div/ul/li/a')
for i in data1:
    print(i.text)

#写法二