实操续:爬虫定位经常报错?试试这个小工具,快速检查XPath,简单明了!

接着爬虫系列,继续讲解XPath定位
老司机,带你用30行代码爬取高清美女写真,附安装包+源码
实操续:爬虫基础知识,浏览器最基本的配置方法
实操续:HTML基本结构,以及数据来源,网页获取

今天继续讲解XPath定位

在这里插入图片描述

一、XPath直观验证工具 selenium IDE

效果展示

以百度为例,获取所有 div带id属性 的元素,被选中的在HTML背影色加深,在网页中有虚线边框
在这里插入图片描述

selenium IDE安装

1 .下载火狐55以内版本安装包(最新版本已经不支持了),安装完成,迅速设置禁止自动更新版本

2 .下载selenium IDE,FireXPath,firebug离线包

3 .依次把离线包拖入浏览器

在这里插入图片描述

4 .安装成功后,点击右上角的小虫子

在这里插入图片描述

5 .因为网盘容易失效,离线包资源放在群共享了

在这里插入图片描述

XPath格式

//div[@id]

第一部分,从哪里获取,必要

/表示从跟节点获取

//表示从当前节点下获取节点,不考虑中间层级关系

例如:

//div [@id=“content_left”]/div只会获取整个左侧div标签首层div

在这里插入图片描述

//div [@id=“content_left”]//div会获取整个左侧div标签

在这里插入图片描述

第二部分,标签名称,必要

常见块标签div,p,ul,ol

通配符*表示所有标签

在这里插入图片描述

第三部分,[ ]表达式修饰符,非必要

修饰符必须配合,表达式一起使用,否则报错

在这里插入图片描述

第四部分,@属性选择

常见属性id,class

from表单中的name,a标签里面的title也可以做属性选择

在这里插入图片描述

XPath内置表达式

需要写在[ ]里面

支持比较运算符,=,>,<

属性比较//*[@id=’u’]

在这里插入图片描述

取前3之后的a标签 //a[position()>3]

在这里插入图片描述

支持逻辑运算and和or,not( )

//*[@id=‘container’ or @id=‘u’]

在这里插入图片描述

另外在介绍两个定位函数

preceding-sibling::*定位兄弟元素

//[@id=‘u’]/preceding-sibling::

在这里插入图片描述

…定位父元素

//*[@id=‘u’]/…

在这里插入图片描述

总结:

1.使用XPath工具,有助于你快速定位元素

2.可以借助XPath工具,验证自己写没写对

3.博主在学习期间收藏了很多实用的小工具,文件比较多,放在群共享了

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值