xpath定位不到原因浅析

在爬虫中,我们经常使用xpath来对元素进行定位,xpath定位分为两种,一种是绝对定位,/html/body/div[2]/div[1]/div/div[3]/a[7],另外一种是相对定位,比如r'//*[@id ='ul' ]/a[7]' 

通常我们可以通过开发者工具,复制元素对应的xpath,这种xpath都是绝对定位,方便获取,但是绝对路径太长,如果里面元素被隐藏了或者元素有变动的话,绝对定位就会出错,就会出现定位不到的情况。这个时候用相对定位可以解决这个问题,相对定位更精准,相对定位通常可以和id或者class-name结合使用。

方法,我们可以将我们写的xpath 放到开发者工具里,看是不是能定位到,如果能定位到,说明不是xpath定位的问题。

还有的情况是页面几个元素的xpah一模一样,这个我们可以用下标解决,举例

 

 现在我们要抓取的是华东地区这个标签,但是问题是华北中心,华南中心,华东中心的三个标签的xpah是一样的。都是//*[@id="common.query_case_list_DW_CDptCdes"] 。这个时候我们选择华东中心,可以通过下标定位,既是

//*[@id="common.query_case_list_DW_CDptCdes"][3] 这样就可以了。

另外看标签是否选中,还有一个小知识点,就是 is_selected(),如果返回true 则表名被选中,如果返回false ,则表名未被选中

browser.find_element_by_xpath('//*[@id="report.report_loss_type_DW_HasGds"]').is_selected()
下面的是一位大神总结的:

什么是xpath呢?

官方介绍:XPath即为XML路径语言,它是一种用来确定XML1标准通用标记语言3的子集)文档中某部分位置的语言。反正小编看这个介绍是云里雾里的,通俗一点讲就是通过元素的路径来查找到这个元素的,相当于通过定位一个对象的坐标,来找到这个对象。

一、xpath:属性定位

  1. xptah也可以通过元素的id、name、class这些属性定位,如下图

 

    2.于是可以用以下xpath方法定位

 

二、xpath:其它属性

    1.如果一个元素id、name、class属性都没有,这时候也可以通过其它属性定位到


三、xpath:标签

    1.有时候同一个属性,同名的比较多,这时候可以通过标签筛选下,定位更准一点

    2.如果不想制定标签名称,可以用*号表示任意标签

    3.如果想制定具体某个标签,就可以直接写标签名称

 

四、xpath:层级

    1.如果一个元素,它的属性不是很明显,无法直接定位到,这时候我们可以先找它老爸(父元素)

    2.找到它老爸后,再找下个层级就能定位到了

    3.如上图所示,要定位的是input这个标签,它的老爸的id=s_kw_wrap.

    4.要是它老爸的属性也不是很明显,就找它爷爷id=form

    5.于是就可以通过层级关系定位到

 

五、xpath:索引

    ​1.如果一个元素它的兄弟元素跟它的标签一样,这时候无法通过层级定位到。因为都是一个父亲生的,多胞胎兄弟。

    ​2.虽然双胞胎兄弟很难识别,但是出生是有先后的,于是可以通过它在家里的排行老几定位到。

    ​3.如下图三胞胎兄弟

 

    ​4.用xpath定位老大、老二和老三(这里索引是从1开始算起的,跟Python的索引不一样)

 

六、xpath:逻辑运算

    ​1.xpath还有一个比较强的功能,是可以多个属性逻辑运算的,可以支持与(and)、或(or)、非(not)

    ​2.一般用的比较多的是and运算,同时满足两个属性

 

 

七、xpath:模糊匹配

    ​1.xpath还有一个非常强大的功能,模糊匹配

    ​2.掌握了模糊匹配功能,基本上没有定位不到的

    ​3.比如我要定位百度页面的超链接“hao123”,在上一篇中讲过可以通过by_link,也可以通过by_partial_link,模糊匹配定位到。当然xpath也可以有同样的功能,并且更为强大。

 

可以把xpath看成是元素定位界的屠龙刀。武林至尊,宝刀xpath,css不出,谁与争锋?下节课将亮出倚天剑css定位。

 原文链接https://www.cnblogs.com/wanghaihong200/p/8461770.html

转载于:https://www.cnblogs.com/chaojiyingxiong/p/10238761.html

  • 3
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值