假设我爬取了这样的一个html网页,前面的前端代码如下所示:
Xpath(/html/head/script/text())[0]
这个表达式的含义是输出在html下的head下的第一个script标签处的文字,因为我们前面的代码:
Xpath(/html/head/script/text())
会输出所有以script开头的对象,因此加上[0]限定为第一个script后面的文字。
因此输出为:
var SitePath=’/’,SiteAid=‘10’,SiteTid=’’,SiteId=’’;
在Xpath表达式当中’//’ 表示前面的省略不计,直接跳过两层或者多层拿到后面的标签中所对应的对象。
二.标签属性的使用
假设我们想要爬取font标签当中具备某个color属性的文字内容,如下所示:
OK资源站
HTTPS 站请进入>>><font size=
font这个标签之后显然会有很多不同的color,但是我们只想要这里color为“#000000”后面的文字内容,因此我们使用这样的表达式:
r_two=tree.xpath(’//font[@color="#000000"]/text()’)