DrissionPage元素定位

DrissionPage元素定位,简单便利,容易理解。特别是利用属性名和属性值定位,快捷便利。

本文的讲解均在前程无忧网(https://www.51job.com)上测试。

1. DrissionPage定位方法:ele()和eles()

DrrissionPage共有四种查找方式

1)在页面内查找:直接使用ele()或eles()方法定位

2)在元素内找查找(与链式查找类似,前者是分步查找,后者是一次性查找):

3)链式查找

4)相对查找:本元素.child()/children()/before()/next()/prev()/after()/prevs()/afters()/parent()

1.1ele(locator, index=1, timeout=None)

作用:此方法只返回一个满足定位条件的元素。

参数:

locator:定位符,即定位条件(下文有详解);

Index:满足定位条件的第index个元素,其开始值为1,0与1结果相同,负数无效;

timeout:设置超时时间,在此秒数内未定位到元素,会抛出异常,如为None,则采用默认设置。

1.2eles(locator, timeout=None)

作用:此方法只返回所有满足定位条件的元素。

参数:同上。

1.3相对查找

1.3.1子元素.child()

我们可以用child()方法直接定位第三个

from DrissionPage import WebPage

Page = WebPage()

page.get(‘https://www.51job.com’)

page.ele(‘#kwdselectid‘).input(‘python\n’)

page.ele((By.ID, 'keywordInput')).clear()

page.ele((By.ID, 'keywordInput')).input('人工\n')

print(page.ele('.joblist').child(3).text)

‘’’

page.ele('.joblist').child(3)

page.ele('@class=joblist').child(3)

page.ele((By.CLASS_NAME, ‘joblist’)).child(3)

page.ele(‘.joblist-item’, 3)

(page.ele((By.CLASS_NAME, 'joblist-item'), 3)

page.ele((By.CSS_SELECTOR, '.joblist>.joblist-item '), 3)

page.ele((By.CSS_SELECTOR, '.joblist .joblist-item '), 3)

‘’’

三引号中的代码功能都一样,只不过是不同方式的表述。

在此代码中,父元素为page.ele('.joblist')。

结果如下:

1.3.2children()

我们假设需抓取本页所有的岗位名称、薪水和公司名称,

代码如下图:

结果如下:

1.3.3prev(locator='', index=1, timeout=None, ele_only=True)

作用:返回当前元素前面一个符合条件的同级元素,可用查询语法筛选,可指定返回筛选结果的第几个。其索引号是满足条件的元素倒数的数字。

参数:

Ele_only:是否只获取元素,为False时把文本、注释节点也纳入

代码如下:

结果如下:

1.3.3prevs(locator='',timeout=None, ele_only=True)

作用:返回当前元素前面所有符合条件的同级元素列表。此时列表索引号顺序正常。

代码如下:

结果如下:

1.3.4next(locator='', index=1, timeout=None, ele_only=True)

作用:与prev()功能完全相反。

1.3.5nexts(locator='', timeout=None, ele_only=True)

作用:与prevs()功能完全相反。

1.3.6before(locator='', index=1, timeout=None, ele_only=True)

作用:返回文档中当前元素前面符合条件的一个元素,可用查询语法筛选,可指定返回筛选结果的第几个。它是在html文档中向数第几个满足条件的元素,不论嵌套。

适用范围:某个嵌套在内部的元素很好定位,但其需定位的元素不好定位,但这二个元素的距离在结构上不远。

1.3.7befores(locator='',timeout=None, ele_only=True)

作用:返回文档中当前元素前面所有符合条件的元素。

1.3.8after(locator='', index=1, timeout=None, ele_only=True)

作用:返回文档中当前元素后面符合条件的一个元素,可用查询语法筛选,可指定返回筛选结果的第几个。它是在html文档中向数第几个满足条件的元素,不论嵌套。

1.3.9afters(locator='',timeout=None, ele_only=True)

作用:返回文档中当前元素后面所有符合条件的元素。

1.3.10parent(level_or_loc=1, index=1)

作用:返回文档中当前元素后面所有符合条件的元素。

返回上面某一级父元素,可指定层数或用查询语法定位

level_or_loc: 第几级父元素,1开始,或定位符

index: 当level_or_loc传入定位符,使用此参数选择第几个结果,1开始

当返回上级的某一级有多个同级标签,而且level_or_loc是locator时,则通过指定index列确定哪个父级标签被选中。

当level_or_loc是整数时,该元素的某父级元素直接被选中,不论其是否还有兄弟级标签。

代码如下:

结果如下:

2.locator有三种开式:字符串,By方法, 元素对象方法。

2.1字符串方法

2.1.1根据id值定位

格式:’#id值’

因为id是网页中唯一的,故只能用ele()方法

以前程无忧网为例,输入框的id=”keywordInput”

from DrissionPage import Webpage

page = Webpage()

page.ele(‘#keywordInput’).input(‘python前端’)

结果如下图

2.1.2根据class属性值定位

格式:’.class值’

如果网页只有一个class属性值,可以直接使用ele()定位,如果有多个,需指定index来定位自己所需的元素。

print(page.ele(‘.waf-nc-wrapper’).text)

结果如下:

2.1.3根据标签名定位

格式:’tag:标签名’或’t:标签名’

page.ele(‘tag:div’)

2.1.4根据属性名定位元素

格式:’@属性名’

 适用于属性名是唯一的,如果有多个,可以采用列表索引取报需的元素

print(page.ele('@track-type').text)

结果如下:

2.1.5 根据属性名和属性值定位

格式:’@属性名=属性值’

此方式适用多个属性具有相同的属性值。

如直接定位到整个工作岗位列表块

page.ele(‘@class=joblist’)

注意:属性值外无引号

此在基础上我们再定位到其下面的直接子节点

这页共有20个位

for item in page.ele('@class=joblist').eles('.joblist-item'):

        print(item.ele('@sensorsdata').attr('sensorsdata'))

结果如下:

由于数据超出窗口范围,故只能截部分。

2.1.6根据text直接定位

格式:’text内容’

这种方法适用于定位标题栏。

每个工作的标题栏由有两个span,我们直接根据text内容,直接定位到那个sapan

print(page.ele(‘Python爬虫’).text),结果如下

2.2.By方法

此方法共有8种模式,同selenium。此方法主要是为了与selenium继承,便于原先使用selenium的人员迁移。

需导入By模块,: from DrissionPage.common import By

格式:(By.mode, 字符串)

其他同字符串方法

page.ele((By.ID, 'keywordInput')).clear()

page.ele((By.ID, 'keywordInput')).input('人工\n')

结果如下:

注意:此处input具有return功能,但用input输入Key.RETURN只会作为一个符号输入,需输入’\n’才能实现实际的回车键功能。

2.3.元素对象方法

此方法的定位符就是前面已定位的元素对象。

这个方法有点鸡肋,因为该元素已经被定位,无需再次定位。或许我还没有理解其真正的作用。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

python编程爱好者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值