python爬虫xpath菜鸟教程_关于python中的xpath解析定位

最新推荐文章于 2023-07-31 13:31:00 发布

weixin_39659837

最新推荐文章于 2023-07-31 13:31:00 发布

阅读量195

点赞数

文章标签： python爬虫xpath菜鸟教程

这里只针对个别属性值：

#例如：'别名'下的span标签文本，‘发病部位'下的span标签文本以及‘挂号科室‘下的span标签文本

def disease(url):

text = get_html(url)

tree = etree.HTML(text)

bm = tree.xpath('//ul[@class="information_ul"]/li/i[text()="别名："]/following-sibling::span/text()')

bw = tree.xpath('//ul[@class="information_ul"]/li/i[text()="发病部位："]/following-sibling::span/a/text()')

ks = tree.xpath('//ul[@class="information_ul"]/li/i[text()="挂号科室："]/following-sibling::span/a/text()')

return bm, bw, ks

补充其他：

# /从根元素开始，相当于绝对路径

print(tree.xpath('/html/body/ul'))

//全局搜索，找到所有

print(tree.xpath('//li'))

ul = tree.xpath('//ul')

. 当前

返回的都是列表，查找到所有

li = ul[0].xpath('./li')

print(li)

for l in li:

获取属性id的值 @id

print(l.xpath('./@id'))

定位 /标签[@属性='值']

liClass = tree.xpath("//li[@class='liClass']")

print(liClass)

判断，@属性='值' --->返回True或False

print(tree.xpath("//li/@id='12'"))

print("===========================")

直接使用下标访问，下标从1开始获取对个li里面的文本

print(tree.xpath('//li[2]/text()'))

last()最后一个

print(tree.xpath('//li[last()]/text()'))

倒数第二个

print(tree.xpath('//li[last()-1]/text()'))

position() 位置 > < = >= <=

print(tree.xpath('//li[position()>1]'))

* 通配

print(tree.xpath('//*[@class="liClass"]'))

或 |

print(tree.xpath('//li[@class="liClass"] | //div[@class="liClass"]'))

xpath基本语法

表达式

说明

article

选取所有article元素的所有子节点

/article

选取根元素article

article/a

选取所有属于article的子元素的a元素

//div

选取所有div元素（不管出现在文档里的任何地方）

article//div

选取所有属于article元素的后代的div元素，不管它出现在article之下的任何位置

//@class

选取所有名为class的属性

表达式

说明

/article/div[1]

选取属于article子元素的第一个div元素

/article/div[last()]

选取属于article子元素的最后一个div元素

/article/div[last()-1]

选取属于article子元素的倒数第二个div元素

//div[@color]

选取所有拥有color属性的div元素

//div[@color=‘red']

选取所有color属性值为red的div元素

表达式

说明

/div/*

选取属于div元素的所有子节点

//*

选取所有元素

//div[@*]

选取所有带属性的div 元素

//div/a 丨//div/p

选取所有div元素的a和p元素

//span丨//ul

选取文档中的span和ul元素

article/div/p丨//span

选取所有属于article元素的div元素的p元素以及文档中所有的 span元素

补充：

相邻元素定位，

前一位：

preceding-sibling::div[1]

后一位：

following-sibling::div[1]

前N位：

preceding-sibling::div[N]

后N位：

following-sibling::div[N]

爬取i标签中包含相关检查节点的兄弟 a节点（找到i节点—>找到其父节点->找到该父节点的子节点a）

content = tree.xpath('//i[contains(text(),"相关检查：")]/../a[@class="blue"]/text()')

xpath多个class限制

//div[contains(@class, 'demo') and contains(@class, 'other')]

xpath 同时多个标签用| 分隔

//div[contains(@class, "jib-lh-articl")]/p | //div[contains(@class, "jib-lh-articl")]/h3

选择不包含某一属性的节点

//div[not(@class)] 没有class属性的div

//tbody/tr[not(@class or @id)]

获取当前节点的是什么类型的html标签

xpath_element.tag

补充知识：使用Xpath定位元素(和元素定位相关的Xpath语法)

本文主要讲述Xpath语法中，和元素定位相关的语法

第一种方法：通过绝对路径做定位（相信大家不会使用这种方式）

By.xpath("html/body/div/form/input")

第二种方法：通过相对路径做定位

两个斜杠代表相对路径

By.xpath("//input//div")

第三种方法：通过元素索引定位

By.xpath("//input[4]")

第四种方法：使用xpath+节点属性定位（结合第2、第3中方法可以使用）

By.xpath("//input[@id='kw1']")

By.xpath("//input[@type='name' and @name='kw1']")

第五种方法：使用部分属性值匹配（最强大的方法）

By.xpath("//input[start-with(@id,'nice')]")

By.xpath("//input[ends-with(@id,'很漂亮')]")

By.xpath("//input[contains(@id,'那么美')]")

第六种方法：使用前集中方法的组合

By.xpath("//input[@id='kw1']//input[start-with(@id,'nice']/div[1]/form[3])

以上这篇关于python中的xpath解析定位就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持菜鸟教程www.piaodoo.com。

weixin_39659837

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫xpath菜鸟教程_关于python中的xpath解析定位

这里只针对个别属性值：#例如：'别名'下的span标签文本，‘发病部位'下的span标签文本以及‘挂号科室‘下的span标签文本#def disease(url):text = get_html(url)tree = etree.HTML(text)bm = tree.xpath('//ul[@class="information_ul"]/li/i[text()="别名："]/following...
复制链接

扫一扫