爬虫入门:XPATH

XPATH入门

标识符作用
节点名获取节点的所有子节点
@获取属性
/从根节点获取
//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置
.获取当前节点
获取当前节点的父节点

可以通过组合使用缩小搜索的范围

以下面的图片为例子:
在这里插入图片描述

元素节点:

元素==标签
strong
"		1917	"

属性节点:

div标签中的
class=“cover-wp“
在这里插入图片描述

文本节点:

标签中间的内容
8.5
"	1917	"

属性定位:

//div[@data-index =“0”]
//div[@class = “slide-page”]
在这里插入图片描述

层级定位:

//div [@class = “slide-page”]/a[@href = “https://movie.douban.com/subject/30252495/?tag=热门&from=gaia”]
在这里插入图片描述

索引定位:

//div [@data-index =“0”]/a[1]
//div [@class =“slider”]//a[@href = “https://movie.douban.com/subject/30252495/?tag=热门&from=gaia”]
在这里插入图片描述

逻辑运算:

//a[@class = “item” and @target = “_blank”]
可以用多个属性组合搜索
在这里插入图片描述

模糊匹配:

//a[contains(@target, “_bla”)]
所有的a标签,有target属性,并且属性中带有_bla的节点
//a[starts-with(@class, “i”)]
所有的a标签,有class属性,并且属性以i开头
在这里插入图片描述

取文本:

//div [@data-index =“0”]/a[1]/p/text()
//div [@data-index =“0”]//a/p/text()
获取文本内容
在这里插入图片描述

取属性:

//div [@data-index =“0”]/a[1]/@href
获取相关网址
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值