【Python爬虫】：Xpath表达式的使用

LLand520

于 2021-01-29 14:40:17 发布

阅读量648

点赞数

分类专栏： python 程序员文章标签： Python 爬虫 Xpath

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LLand520/article/details/113386956

版权

本文介绍了如何在Python爬虫中使用XPath表达式。通过实例展示了如何获取html中特定标签的内容，如获取<head>下的第一个<script>标签内的文字，以及筛选具有特定属性（如color="#000000"）的<font>标签内的文本。

摘要由CSDN通过智能技术生成

假设我爬取了这样的一个html网页，前面的前端代码如下所示：

OK资源采集-最新影视资源大全复制代码我们想要获取其中的script标签后面的内容，因此我们可以使用Xpath来获取，假设我们想要获得第一个script标签处的值value，就可以使用表达式：

Xpath（/html/head/script/text()）[0]
这个表达式的含义是输出在html下的head下的第一个script标签处的文字，因为我们前面的代码：

Xpath（/html/head/script/text()）
会输出所有以script开头的对象，因此加上[0]限定为第一个script后面的文字。

因此输出为：

var SitePath=’/’,SiteAid=‘10’,SiteTid=’’,SiteId=’’;
在Xpath表达式当中’//’ 表示前面的省略不计，直接跳过两层或者多层拿到后面的标签中所对应的对象。

二.标签属性的使用
假设我们想要爬取font标签当中具备某个color属性的文字内容，如下所示：

OK资源站
HTTPS 站请进入>>><font size=
font这个标签之后显然会有很多不同的color，但是我们只想要这里color为“#000000”后面的文字内容，因此我们使用这样的表达式：

r_two=tree.xpath(’//font[@color="#000000"]/text()’)

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。