网络爬虫_xpath

最新推荐文章于 2023-06-17 09:13:39 发布

lhy857

最新推荐文章于 2023-06-17 09:13:39 发布

阅读量550

点赞数

分类专栏：网络爬虫_xpath 文章标签：网络爬虫

本文链接：https://blog.csdn.net/lhy857/article/details/124074470

版权

本文通过Python的lxml库展示了如何使用XPath解析HTML文档，包括选取节点、获取属性值、处理列表等内容，具体操作如选取li标签、获取a标签文本和href属性、处理位置节点等。

摘要由CSDN通过智能技术生成

from lxml import etree
#https://mirrors.aliyun.com/pypi/simple/   python仓库
wb_data = """
    <div>
        <ul>
            <li class="item-0"><a href="link1.html">first item</a></li>
            <li class="item-1"><a href="link2.html">second item</a></li>
            <li class="item-inactive"><a href="link3.html">third item</a></li>
            <li class="item-3"><a href="link4.html">fourth item</a></li>
            <li class="item-4"><a href="link5.html">fifth item</a></li>
        </ul>
    </div>    
          """

#将变量读取为HTML对象,自动添加<html><body>... ...</body></html>
html=etree.HTML(wb_data)

#解析数据 /是根节点
data=html.xpath('/html')
//子孙节点
data2=html.x

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lhy857

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫_xpath

from lxml import etree#https://mirrors.aliyun.com/pypi/simple/ python仓库wb_data = """ <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"&g.
复制链接

扫一扫