爬虫之XPath语法

最新推荐文章于 2024-07-26 18:30:00 发布

简之

最新推荐文章于 2024-07-26 18:30:00 发布

阅读量503

点赞数

分类专栏：数据分析文章标签：爬虫 XPath

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/olizxq/article/details/81838315

版权

数据分析专栏收录该内容

12 篇文章 2 订阅

订阅专栏

爬虫之XPath语法

1、简介

XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。
XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。

2、XPath节点

七种基本节点
- 元素、属性、文本
- 命名空间、处理指令、注释以及根节点
节点之间的关系
- 父、子、同胞（兄弟）、先辈、后代

3、XPath语法

3.1 路径表达式

nodename 选取此节点的所有子节点
/ 从根节点选取
// 从匹配的当前节点选择文档中的节点，而不考虑它们的位置。
. 选取当前节点
.. 选取当前节点的父节点
@ 选取属性

3.2 路径表达式例子

bookstore 选取bookstore元素的所有子节点
/bookstore 选取根元素bookstore
/bookstore/book 选取属于bookstore的子元素的所有book元素
//book 选取所有book元素，而不管它们在文档中的位置。
bookstore//book 选择属于bookstore元素的后代的所有book元素
//@lang 选取名为lang的所有属性

3.3 谓语

嵌在[]中用来查找某个特定节点或包含某个指定值得节点。
/bookstore/book[1] 第一个book元素
/bookstore/book[last()] 最后一个book元素
/bookstore/book[position()<3] 选择前2个
//title[@lang] 选择所拥有有名为lang的属性的title元素
/bookstore/book[price>35.00]

4、XPath的使用

4.1 选取内容

获取文本内容用 text()
获取注释用 comment()
获取其它任何属性用@xx，如
- @href
- @src
- @value

comment['people_url'] = item.xpath('//header[@class="main-hd"]/a[1]/@href').extract()[0]

4.2 元素标签索引

元素标签如：li、p、div
多个元素标签，位置默认以1开始
最后一个用 li[last()] 不能用 li[-1]

comment['star'] = item.xpath('//header[@class="main-hd"]/span[2]/text()').extract()[0]

4.3 根据属性或者文本直接定位到当前标签

文本是 text()=’xxx’
其它属性是@xx=’xxx’

comment['title'] = item.xpath('//span[@property="v:summary"]/text()').extract()[0]

4.3 根据属性内容选取

想要获取某个标签下所有的文本（包括子标签下的文本），使用string
starts-with 匹配字符串前面相等
contains 匹配任何位置相等
当然其中的(@class,”content”)也可以根据需要改成(text(),”content”)或者其它属性(@src,”content”)

item.xpath('string(//p[@class="test"])')
item.xpath('//p[starts-with(@class,"content")]/text()')
item.xpath('//p[contains(@class,"content")]/text()')

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。