xpath的学习以及语法

XPath是一种在XML和HTML文档中查找信息的语言,常用于自动化程序选择Web元素。相对CSS选择器,XPath提供更直接的路径表达方式,如绝对路径和相对路径。XPath还能通过通配符和属性选择来定位元素,如根据ID、class或其他属性。此外,XPath还能选择父节点和兄弟节点,而CSS选择器在这方面有限。文章详细介绍了XPath的各种选择语法及其在数据爬取中的应用。
摘要由CSDN通过智能技术生成

1、发送请求
2、响应的解析
3、爬数据、保存数据


xpath
bs4
re(正则表达式)
在这里插入图片描述


xpath是在xml和html文档中找到信息的语言,可用在xml和html文档对元素和属性进行遍历
按照一定的规则进行数据的获取


用css选择web元素麻烦,xpath非常简单
**

绝对路径的选择

自动化程序使用的是xpath来选择web元素,

driver.find_elements_by_xpath("/html/body/div")

相对路径的选择

无论在哪里都能够找得到
要选择 所有的 div 元素里面的 所有的 p 元素 ,不管div 在什么位置,也不管p元素在div下面的什么位置,则可以这样写 //div//p

elements = driver.find_elements_by_xpath("//div//p")

如果要用css,那么代码就是下面的

elements = driver.find_elements_by_css_selector("div p")

xpath方法中div的直接子节点,就是

//div/p

css选择器的话,

div>p

通配符

如果想要选择div节点中的所有的直接子节点,可以使用

//div/*

,*是一个通配符,
对应css

  div> *

根据属性选择

[@属性名=‘属性值’]
根据id
//[@id=‘west’]
根据class
//select[@class=‘capital huge-city’]
根据其他的属性
//[multiple]
属性包含字符串
要选择 style属性值 包含 color 字符串的 页面元素 ,可以这样 //
[contains(@style,’color’)]
要选择 style属性值 以 color 字符串 开头 的 页面元素 ,可以这样 //[starts-with(@style,’color’)]
要选择 style属性值 以 某个 字符串 结尾 的 页面元素 ,大家可以推测是 //
[ends-with(@style,’color’)], 但是,很遗憾,这是xpath 2.0 的语法 ,目前浏览器都不支持
按照次序
//div/p[2]
可以选择父元素为div中的p类型第二个子元素
第几个子元素
//div/[2]
某类型倒数第几个子元素
//p[last()]
//p[last()-1]
//div/p[last()-2]
范围的选择
//option[position()<2]
选择class属性为multi_choice的前3个子元素
//
[@class=‘multi_choice’]/[position()<=3]
选择class属性为multi_choice的后3个子元素
//
[@class=‘multi_choice’]/*[position()>last()-2]
为什么不是 last()-3 呢? 因为

last() 本身代表最后一个元素
last()-1 本身代表倒数第2个元素
last()-2 本身代表倒数第3个元素
组选择、父节点、兄弟节点
xpath也有组选择, 是用 竖线 隔开多个表达式, 比如,要选所有的option元素 和所有的 h4 元素,可以使用
//option | //h4 等同于CSS选择器 option , h4

//[@class=‘single_choice’] | //[@class=‘multi_choice’] 等同于CSS选择器 .single_choice , .multi_choice

选择父节点
xpath可以选择父节点, 这是css做不到的。某个元素的父节点用 /… 表示, 比如,要选择 id 为 china 的节点的父节点,可以这样写 //[@id=‘china’]/… 。
当某个元素没有特征可以直接选择,但是它有子节点有特征, 就可以采用这种方法,先选择子节点,再指定父节点。
还可以继续找上层父节点,比如 //
[@id=‘china’]/…/…/…
兄弟节点选择
前面学过 css选择器,要选择某个节点的后续兄弟节点,用 波浪线, xpath也可以选择 后续 兄弟节点,用这样的语法 following-sibling::
比如,要选择 class 为 single_choice 的元素的所有后续兄弟节点 //[@class=’single_choice’]/following-sibling::, 等同于CSS选择器 .single_choice ~ *
如果,要选择后续节点中的div节点, 就应该这样写 //*[@class=‘single_choice’]/following-sibling::div
xpath还可以选择 前面的 兄弟节点,用这样的语法 preceding-sibling::
比如,要选择 class 为 single_choice 的元素的所有前面的兄弟节点 //[@class=’single_choice’]/preceding-sibling::
而CSS选择器目前还没有方法选择前面的 兄弟节点
要了解更多Xpath选择语法,可以点击这里,打开Xpath选择器参考手册: http://www.w3school.com.cn/xpath/index.asp

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值