实操续:爬虫定位经常报错?试试这个小工具,快速检查XPath,简单明了!

接着爬虫系列,继续讲解XPath定位
老司机,带你用30行代码爬取高清美女写真,附安装包+源码
实操续:爬虫基础知识,浏览器最基本的配置方法
实操续:HTML基本结构,以及数据来源,网页获取

今天继续讲解XPath定位

在这里插入图片描述

一、XPath直观验证工具 selenium IDE

效果展示

以百度为例,获取所有 div带id属性 的元素,被选中的在HTML背影色加深,在网页中有虚线边框
在这里插入图片描述

selenium IDE安装

1 .下载火狐55以内版本安装包(最新版本已经不支持了),安装完成,迅速设置禁止自动更新版本

2 .下载selenium IDE,FireXPath,firebug离线包

3 .依次把离线包拖入浏览器

在这里插入图片描述

4 .安装成功后,点击右上角的小虫子

在这里插入图片描述

5 .因为网盘容易失效,离线包资源放在群共享了

在这里插入图片描述

XPath格式

//div[@id]

第一部分,从哪里获取,必要

/表示从跟节点获取

//表示从当前节点下获取节点,不考虑中间层级关系

例如:

//div [@id=“content_left”]/div只会获取整个左侧div标签首层div

在这里插入图片描述

//div [@id=“content_left”]//div会获取整个左侧div标签

在这里插入图片描述

第二部分,标签名称,必要

常见块标签div,p,ul,ol

通配符*表示所有标签

在这里插入图片描述

第三部分,[ ]表达式修饰符,非必要

修饰符必须配合,表达式一起使用,否则报错

在这里插入图片描述

第四部分,@属性选择

常见属性id,class

from表单中的name,a标签里面的title也可以做属性选择

在这里插入图片描述

XPath内置表达式

需要写在[ ]里面

支持比较运算符,=,>,<

属性比较//*[@id=’u’]

在这里插入图片描述

取前3之后的a标签 //a[position()>3]

在这里插入图片描述

支持逻辑运算and和or,not( )

//*[@id=‘container’ or @id=‘u’]

在这里插入图片描述

另外在介绍两个定位函数

preceding-sibling::*定位兄弟元素

//[@id=‘u’]/preceding-sibling::

在这里插入图片描述

…定位父元素

//*[@id=‘u’]/…

在这里插入图片描述

总结:

1.使用XPath工具,有助于你快速定位元素

2.可以借助XPath工具,验证自己写没写对

3.博主在学习期间收藏了很多实用的小工具,文件比较多,放在群共享了

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Python爬虫是一种通过编写Python程序来自动化获取互联网上的数据的技术。爬虫可以用于从网上抓取各种数据,包括文字、图片、视频等。而网课数据爬取是指使用爬虫技术从网上抓取各种网课相关的数据,比如课程名称、课程价格、课程评分等。 爬取网课数据的过程通常分为以下几个步骤: 1. 确定要爬取的目标网站和数据,比如某个网上教育平台的课程页面。 2. 使用Python爬虫库,比如Requests库或Scrapy框架,发送HTTP请求获取网页内容。 3. 使用解析库,比如BeautifulSoup库或XPath,解析网页内容,提取所需的数据。 4. 对数据进行清洗和处理,比如去除HTML标签、缺失值处理等。 5. 将清洗过的数据保存到本地文件或数据库中,以备后续分析和可视化使用。 在获取到网课数据后,可以使用可视化工具,比如Matplotlib库或Plotly库,来进行数据的可视化展示。通过可视化,可以更直观地理解和分析数据,并将数据以图表的形式展示出来,比如柱状图、折线图、饼图等。这些图表可以帮助人们更好地理解网课的分布、趋势和关联性,为决策提供参考。 总而言之,Python爬虫技术可以用于网课数据的爬取,而数据的可视化则可以通过使用Python的可视化库来实现。这种方式可以帮助我们更好地利用网上的网课资源,并通过数据分析和可视化来获得更多的洞见和价值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值