XPath的几个常用语法与实例(Python)

一、xpath的语法

表达式描述
/从根节点选取
//从匹配选择的当前节点下选择文档中的节点,不用考虑它们的位置
@选取属性
.选取当前节点
. .选取当前节点的父节点

二、实例
在这里插入图片描述
从豆瓣电影排行榜网页源代码中(https://movie.douban.com/chart)截取了以下代码用于演示。

<div class="indent">
<div class="">
    <p class="ul first"></p>
    <table width="100%" class="">
        <tr class="item">
            <td width="100" valign="top">                     
                    <a class="nbg" href="https://movie.douban.com/subject/30306570/"  title="囧妈">
                        <img src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2581835383.webp" width="75" alt="囧妈" class=""/>
                    </a>
            </td>
            <td valign="top"> 
                <div class="pl2">
                    <a href="https://movie.douban.com/subject/30306570/"  class="">
                        囧妈
                        / <span style="font-size:13px;">俄囧 / Lost in Russia</span>
                    </a>
          	......
          	

1、获取所列的电影的url地址
例如,对于《囧妈》这部电影,它的url地址为:https://movie.douban.com/subject/30306570/

路径表达式为:
url_list = html.xpath("//div[@class='indent']/div/table//div[@class='pl2']/a/@href")

① //div[@class=‘indent’]:首先从根节点下开始选取html中class名为‘indent’的div结点
② //div[@class=‘indent’]/div/table:再从选择的当前节点作为根节点,继续往下选择结点
③ //div[@class=‘indent’]/div/table//div[@class=‘pl2’]: 从匹配选择的当前节点下选择文档中的class名为pl2的div节点
④//div[@class=‘indent’]/div/table//div[@class=‘pl2’]/a:选择到url地址所在的这个结点
⑤//div[@class=‘indent’]/div/table//div[@class=‘pl2’]/a/@href:规定我们要的属性,即href.

2、所有图片的地址
同理。

路径表达式为:
img_list = html.xpath("//div[@class='indent']/div/table//a[@class='nbg']/img/@src")
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值