python爬虫xpath菜鸟教程_关于python中的xpath解析定位

这里只针对个别属性值:

#例如:'别名'下的span标签文本,‘发病部位'下的span标签文本以及‘挂号科室‘下的span标签文本

#

def disease(url):

text = get_html(url)

tree = etree.HTML(text)

bm = tree.xpath('//ul[@class="information_ul"]/li/i[text()="别名:"]/following-sibling::span/text()')

bw = tree.xpath('//ul[@class="information_ul"]/li/i[text()="发病部位:"]/following-sibling::span/a/text()')

ks = tree.xpath('//ul[@class="information_ul"]/li/i[text()="挂号科室:"]/following-sibling::span/a/text()')

return bm, bw, ks

补充其他:

# /从根元素开始,相当于绝对路径

print(tree.xpath('/html/body/ul'))

//全局搜索,找到所有

print(tree.xpath('//li'))

ul = tree.xpath('//ul')

. 当前

返回的都是列表,查找到所有

li = ul[0].xpath('./li')

print(li)

for l in li:

获取属性id的值 @id

print(l.xpath('./@id'))

定位 /标签[@属性='值']

liClass = tree.xpath("//li[@class='liClass']")

print(liClass)

判断,@属性='值' --->返回True或False

print(tree.xpath("//li/@id='12'"))

print("===========================")

直接使用下标访问,下标从1开始 获取对个li里面的文本

print(tree.xpath('//li[2]/text()'))

last()最后一个

print(tree.xpath('//li[last()]/text()'))

倒数第二个

print(tree.xpath('//li[last()-1]/text()'))

position() 位置 > < = >= <=

print(tree.xpath('//li[position()>1]'))

* 通配

print(tree.xpath('//*[@class="liClass"]'))

或 |

print(tree.xpath('//li[@class="liClass"] | //div[@class="liClass"]'))

xpath基本语法

表达式

说明

article

选取所有article元素的所有子节点

/article

选取根元素article

article/a

选取所有属于article的子元素的a元素

//div

选取所有div元素(不管出现在文档里的任何地方)

article//div

选取所有属于article元素的后代的div元素,不管它出现在article之下的任何位置

//@class

选取所有名为class的属性

表达式

说明

/article/div[1]

选取属于article子元素的第一个div元素

/article/div[last()]

选取属于article子元素的最后一个div元素

/article/div[last()-1]

选取属于article子元素的倒数第二个div元素

//div[@color]

选取所有拥有color属性的div元素

//div[@color=‘red']

选取所有color属性值为red的div元素

表达式

说明

/div/*

选取属于div元素的所有子节点

//*

选取所有元素

//div[@*]

选取所有带属性的div 元素

//div/a 丨//div/p

选取所有div元素的a和p元素

//span丨//ul

选取文档中的span和ul元素

article/div/p丨//span

选取所有属于article元素的div元素的p元素以及文档中所有的 span元素

补充:

相邻元素定位,

前一位:

preceding-sibling::div[1]

后一位:

following-sibling::div[1]

前N位:

preceding-sibling::div[N]

后N位:

following-sibling::div[N]

爬取i标签中包含相关检查节点的兄弟 a节点(找到i节点—>找到其父节点->找到该父节点的子节点a)

content = tree.xpath('//i[contains(text(),"相关检查:")]/../a[@class="blue"]/text()')

xpath多个class限制

//div[contains(@class, 'demo') and contains(@class, 'other')]

xpath 同时多个标签用| 分隔

//div[contains(@class, "jib-lh-articl")]/p | //div[contains(@class, "jib-lh-articl")]/h3

选择不包含某一属性的节点

//div[not(@class)] 没有class属性的div

//tbody/tr[not(@class or @id)]

获取当前节点的是什么类型的html标签

xpath_element.tag

补充知识:使用Xpath定位元素(和元素定位相关的Xpath语法)

本文主要讲述Xpath语法中,和元素定位相关的语法

第一种方法:通过绝对路径做定位(相信大家不会使用这种方式)

By.xpath("html/body/div/form/input")

第二种方法:通过相对路径做定位

两个斜杠代表相对路径

By.xpath("//input//div")

第三种方法:通过元素索引定位

By.xpath("//input[4]")

第四种方法:使用xpath+节点属性定位(结合第2、第3中方法可以使用)

By.xpath("//input[@id='kw1']")

By.xpath("//input[@type='name' and @name='kw1']")

第五种方法:使用部分属性值匹配(最强大的方法)

By.xpath("//input[start-with(@id,'nice')]")

By.xpath("//input[ends-with(@id,'很漂亮')]")

By.xpath("//input[contains(@id,'那么美')]")

第六种方法:使用前集中方法的组合

By.xpath("//input[@id='kw1']//input[start-with(@id,'nice']/div[1]/form[3])

以上这篇关于python中的xpath解析定位就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持菜鸟教程www.piaodoo.com。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值