学习xpath看这一篇就够了

最新推荐文章于 2023-09-21 16:36:56 发布

thginWalker

最新推荐文章于 2023-09-21 16:36:56 发布

阅读量1.2k

点赞数

分类专栏：网络爬虫 # Scrapy 文章标签： xpath scrapy

本文链接：https://blog.csdn.net/xz2585458279/article/details/79336904

版权

网络爬虫同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

Scrapy

5 篇文章 0 订阅

订阅专栏

前言

偶然看见python的scrapy框架，由于兴趣的吸引，最近如入门式的学习，在学习过程中遇到了xpath的相关知识，在此进行总结方面日后查询和记忆。
参考:
菜鸟教程

理解

XPath是一门在 XML 文档中查找信息的语言。当然也可以运用于HTML。在scrapy中用来查找页面需要的内容。

实例

<?xml version="1.0" encoding="UTF-8"?>

<bookstore>
<h1>Example</h1>
<book>
  <title lang="eng">Harry Potter</title>
  <price>29.99</price>
</book>

<book>
  <title lang="eng">Learning XML</title>
  <price>39.95</price>
</book>

</bookstore>

选取节点

节点名：选取此节点的所有子节点
/：从根节点选取
//：从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置(理解)
.：选取当前节点
..：选取当前节点的父节点
@：选取属性

注：这些语法可以混合使用。

表达式	说明
article	选取所有article元素的所有子节点
/article	选取根元素article
article/a	选取所有属于article的子元素的a元素(不考虑位置)
/div	选取所有div元素
article//div	选取所有article元素的后代div元素
//@class	选取所有名为class的属性

选取多个class

    <div class = "h-entry toc-sidebar">...</div>

要注意的是匹配这样的div通过xpath('//div[@class="h-entry"]')或xpath('//div[@class="toc-sidebar"]')是无法获取的，可通过xpath('//div[contains(@class,"h-entry")]')或 xpath('//div[contains(@class,"toc-sidebar")]')进行匹配到，最好的是xpath('//div[contains(@class,"h-entry") and contains(@class,"toc-sidebar")]')