xpath以某个字符开始_NO.9 使用Selector提取数据——XPath

最新推荐文章于 2022-06-21 10:24:36 发布

老闻

最新推荐文章于 2022-06-21 10:24:36 发布

阅读量178

点赞数

文章标签： xpath以某个字符开始

本文链接：https://blog.csdn.net/weixin_30095833/article/details/112359104

版权

XPath是XML路径语言，用于定位XML文档中的元素。本文介绍了XPath的基础语法，包括节点类型、路径表达式、属性选择等，并通过实例展示了如何正确使用XPath选择元素，如选取特定节点、后代节点、属性等。还提到了常见错误及其解决方案，以及contains函数的应用。

摘要由CSDN通过智能技术生成

XPath 即 XML 路径语言(XML Path Language)，它是一种用来确定 xml 文档中某部分位置的语言。

xml 文档( html 属于 xml )是由一系列节点构成的树，例如：

Hello Python

Click here

xml 文档的节点有多种类型，其中最常用的有以下几种：

根节点 整个文档树的根。
元素节点 html、body、div、p、a。
属性节点 href。
文本节点 Hello Python、Click here。

节点间的关系有以下几种：

父子 body 是 html 的子节点，p 和 a 是 div 的子节点，反过来 div 是 p 和 a 的父节点。
兄弟 p 和 a 为兄弟节点。
祖先/后裔 body、div、p、a 都是 html 的后裔节点；反过来 html 是 body、div、p、a 的祖先节点。

01 基础语法

以下表格列出了 XPath 常用的基本语法。

接下来，我们通过一些例子展示 XPath 的使用。

首先创建一个用于演示的 html 文档，并用其构造一个 HTMLResponse 对象：

>>> from scrapy.selector import Selector>>> from scrapy.http import HtmlResponse>>> body = '''... ...     ...             ...             Hello Scrapy...     ...     ...

... Name:Image 1 ... Name:Image 2 ... Name:Image 3 ... Name:Image 4 ... Name:Image 5 ...

... ... ... '''>>> >>> response = HtmlResponse(url="http://www.example.com",body=body,encoding='utf8')

/: 描述一个从根开始的绝对路径。

>>> response.xpath('/html')[]>>> response.xpath('/html/head')[]

最低0.47元/天解锁文章

老闻

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
xpath以某个字符开始_NO.9 使用Selector提取数据——XPath

XPath 即 XML 路径语言(XML Path Language)，它是一种用来确定 xml 文档中某部分位置的语言。xml 文档( html 属于 xml )是由一系列节点构成的树，例如： Hello PythonClick herexml 文档的节点有多种类型，其中最常用的有以下几种：根节点整个文档树的根。元素节点 html、body、div...
复制链接

扫一扫

xpath以某个字符开始_NO.9 使用Selector提取数据——XPath

“相关推荐”对你有帮助么？