DrissionPage元素定位,简单便利,容易理解。特别是利用属性名和属性值定位,快捷便利。
本文的讲解均在前程无忧网(https://www.51job.com)上测试。
1. DrissionPage定位方法:ele()和eles()
DrrissionPage共有四种查找方式
1)在页面内查找:直接使用ele()或eles()方法定位
2)在元素内找查找(与链式查找类似,前者是分步查找,后者是一次性查找):
3)链式查找
4)相对查找:本元素.child()/children()/before()/next()/prev()/after()/prevs()/afters()/parent()
1.1ele(locator, index=1, timeout=None)
作用:此方法只返回一个满足定位条件的元素。
参数:
locator:定位符,即定位条件(下文有详解);
Index:满足定位条件的第index个元素,其开始值为1,0与1结果相同,负数无效;
timeout:设置超时时间,在此秒数内未定位到元素,会抛出异常,如为None,则采用默认设置。
1.2eles(locator, timeout=None)
作用:此方法只返回所有满足定位条件的元素。
参数:同上。
1.3相对查找
1.3.1子元素.child()
我们可以用child()方法直接定位第三个
from DrissionPage import WebPage
Page = WebPage()
page.get(‘https://www.51job.com’)
page.ele(‘#kwdselectid‘).input(‘python\n’)
page.ele((By.ID, 'keywordInput')).clear()
page.ele((By.ID, 'keywordInput')).input('人工\n')
print(page.ele('.joblist').child(3).text)
‘’’
page.ele('.joblist').child(3)
page.ele('@class=joblist').child(3)
page.ele((By.CLASS_NAME, ‘joblist’)).child(3)
page.ele(‘.joblist-item’, 3)
(page.ele((By.CLASS_NAME, 'joblist-item'), 3)
page.ele((By.CSS_SELECTOR, '.joblist>.joblist-item '), 3)
page.ele((By.CSS_SELECTOR, '.joblist .joblist-item '), 3)
‘’’
三引号中的代码功能都一样,只不过是不同方式的表述。
在此代码中,父元素为page.ele('.joblist')。
结果如下:
1.3.2children()
我们假设需抓取本页所有的岗位名称、薪水和公司名称,
代码如下图:
结果如下:
1.3.3prev(locator='', index=1, timeout=None, ele_only=True)
作用:返回当前元素前面一个符合条件的同级元素,可用查询语法筛选,可指定返回筛选结果的第几个。其索引号是满足条件的元素倒数的数字。
参数:
Ele_only:是否只获取元素,为False时把文本、注释节点也纳入
代码如下:
结果如下:
1.3.3prevs(locator='',timeout=None, ele_only=True)
作用:返回当前元素前面所有符合条件的同级元素列表。此时列表索引号顺序正常。
代码如下:
结果如下:
1.3.4next(locator='', index=1, timeout=None, ele_only=True)
作用:与prev()功能完全相反。
1.3.5nexts(locator='', timeout=None, ele_only=True)
作用:与prevs()功能完全相反。
1.3.6before(locator='', index=1, timeout=None, ele_only=True)
作用:返回文档中当前元素前面符合条件的一个元素,可用查询语法筛选,可指定返回筛选结果的第几个。它是在html文档中向数第几个满足条件的元素,不论嵌套。
适用范围:某个嵌套在内部的元素很好定位,但其需定位的元素不好定位,但这二个元素的距离在结构上不远。
1.3.7befores(locator='',timeout=None, ele_only=True)
作用:返回文档中当前元素前面所有符合条件的元素。
1.3.8after(locator='', index=1, timeout=None, ele_only=True)
作用:返回文档中当前元素后面符合条件的一个元素,可用查询语法筛选,可指定返回筛选结果的第几个。它是在html文档中向数第几个满足条件的元素,不论嵌套。
1.3.9afters(locator='',timeout=None, ele_only=True)
作用:返回文档中当前元素后面所有符合条件的元素。
1.3.10parent(level_or_loc=1, index=1)
作用:返回文档中当前元素后面所有符合条件的元素。
返回上面某一级父元素,可指定层数或用查询语法定位
level_or_loc: 第几级父元素,1开始,或定位符
index: 当level_or_loc传入定位符,使用此参数选择第几个结果,1开始
当返回上级的某一级有多个同级标签,而且level_or_loc是locator时,则通过指定index列确定哪个父级标签被选中。
当level_or_loc是整数时,该元素的某父级元素直接被选中,不论其是否还有兄弟级标签。
代码如下:
结果如下:
2.locator有三种开式:字符串,By方法, 元素对象方法。
2.1字符串方法
2.1.1根据id值定位
格式:’#id值’
因为id是网页中唯一的,故只能用ele()方法
以前程无忧网为例,输入框的id=”keywordInput”
from DrissionPage import Webpage
page = Webpage()
page.ele(‘#keywordInput’).input(‘python前端’)
结果如下图
2.1.2根据class属性值定位
格式:’.class值’
如果网页只有一个class属性值,可以直接使用ele()定位,如果有多个,需指定index来定位自己所需的元素。
print(page.ele(‘.waf-nc-wrapper’).text)
结果如下:
2.1.3根据标签名定位
格式:’tag:标签名’或’t:标签名’
page.ele(‘tag:div’)
2.1.4根据属性名定位元素
格式:’@属性名’
适用于属性名是唯一的,如果有多个,可以采用列表索引取报需的元素
print(page.ele('@track-type').text)
结果如下:
2.1.5 根据属性名和属性值定位
格式:’@属性名=属性值’
此方式适用多个属性具有相同的属性值。
如直接定位到整个工作岗位列表块
page.ele(‘@class=joblist’)
注意:属性值外无引号
此在基础上我们再定位到其下面的直接子节点
这页共有20个位
for item in page.ele('@class=joblist').eles('.joblist-item'):
print(item.ele('@sensorsdata').attr('sensorsdata'))
结果如下:
由于数据超出窗口范围,故只能截部分。
2.1.6根据text直接定位
格式:’text内容’
这种方法适用于定位标题栏。
每个工作的标题栏由有两个span,我们直接根据text内容,直接定位到那个sapan
print(page.ele(‘Python爬虫’).text),结果如下
2.2.By方法
此方法共有8种模式,同selenium。此方法主要是为了与selenium继承,便于原先使用selenium的人员迁移。
需导入By模块,: from DrissionPage.common import By
格式:(By.mode, 字符串)
其他同字符串方法
page.ele((By.ID, 'keywordInput')).clear()
page.ele((By.ID, 'keywordInput')).input('人工\n')
结果如下:
注意:此处input具有return功能,但用input输入Key.RETURN只会作为一个符号输入,需输入’\n’才能实现实际的回车键功能。
2.3.元素对象方法
此方法的定位符就是前面已定位的元素对象。
这个方法有点鸡肋,因为该元素已经被定位,无需再次定位。或许我还没有理解其真正的作用。