【Python爬虫】:Xpath表达式的使用

本文介绍了如何在Python爬虫中使用XPath表达式。通过实例展示了如何获取html中特定标签的内容,如获取<head>下的第一个<script>标签内的文字,以及筛选具有特定属性(如color="#000000")的<font>标签内的文本。
摘要由CSDN通过智能技术生成

假设我爬取了这样的一个html网页,前面的前端代码如下所示:

OK资源采集-最新影视资源大全 复制代码 我们想要获取其中的script标签后面的内容,因此我们可以使用Xpath来获取,假设我们想要获得第一个script标签处的值value,就可以使用表达式:

Xpath(/html/head/script/text())[0]
这个表达式的含义是输出在html下的head下的第一个script标签处的文字,因为我们前面的代码:

Xpath(/html/head/script/text())
会输出所有以script开头的对象,因此加上[0]限定为第一个script后面的文字。

因此输出为:

var SitePath=’/’,SiteAid=‘10’,SiteTid=’’,SiteId=’’;
在Xpath表达式当中’//’ 表示前面的省略不计,直接跳过两层或者多层拿到后面的标签中所对应的对象。

二.标签属性的使用
假设我们想要爬取font标签当中具备某个color属性的文字内容,如下所示:

OK资源站
HTTPS 站请进入>>><font size=
font这个标签之后显然会有很多不同的color,但是我们只想要这里color为“#000000”后面的文字内容,因此我们使用这样的表达式:

r_two=tree.xpath(’//font[@color="#000000"]/text()’)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值