【scrapy】3.XPath解析

铁盒薄荷糖

已于 2024-06-28 16:20:00 修改

阅读量666

点赞数 26

分类专栏： scrapy爬虫文章标签： scrapy

于 2024-06-28 15:36:23 首次发布

本文链接：https://blog.csdn.net/m0_37932764/article/details/140017763

版权

scrapy爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

2.3定位特定属性的父元素下的特定属性的子元素：

5.3根据包含特定关键词的文本内容定位元素：

6.使用部分函数定位

三、XPath语法验证

四、lxml的基本使用

一、XPath介绍

1.基本介绍

XPath（XML Path Language）是一种XML的查询语言，他能在XML树状结构中寻找节点。XPath 用于在 XML 文档中通过元素和属性进行导航

xml是一种标记语法的文本格式，xpath可以方便的定位xml中的元素和其中的属性值。lxml是python中的一个第三方模块，它包含了将html文本转成xml对象，和对对象执行xpath的功能

2.HTML树状结构图

3.节点之间的关系

Xpath 中的绝对路径从 HTML 根节点开始算，相对路径从任意节点开始。通过开发者工具，我们可以拷贝到 Xpath 的绝对路径和相对路径代码：

绝对路径

#从根节点/html开始往下，一层层的表示出来直到需要的节点为止。

/html/body/div[1]/div[2]/div[6]/div/div/div[2]/div/div[1]/div/div[1]/div/div/ul/li[1]/a/span[1]

相对路径

#以“//”开头。可以从任意节点开始，一般选取一个可以唯一定位到的元素开始写

//*[@id="title-content"]/span[1]

但是由于拷贝出来的代码缺乏灵活性，也不全然准确。大部分情况下，都需要自己定义 Xpath 语句。

二、XPath的语法介绍

表达式	说明	举例
/	从根节点开始选取	/html/div/span
//	从任意节点开始选取	//*[@id="kw"]
.	选取当前节点
..	选取当前节点的父节点	//input/.. #会选取 input 的父节点
@	选取属性或者根据属性选取	//input[@data] #选取具备 data 属性的 input 元素 //@data #选取所有 data 属性
*	通配符，表示任意节点或任意属性

路径表达式	描述
bookstore	选取bookstore元素的所有子节点
/bookstore	选取根元素bookstore，假如路径起始于“/”，则此路径始终代表到元素的绝对路径
//bookstore	选取属于bookstore的子元素的所有book元素
bookstore/book	选取所有book子元素，而不管它们在文档中的位置
//book	选择属于bookstore元素的后代的任意位置的所有book元素
//@lang	选取名为lang的所有属性

1.元素属性定位

1.1 属性名定位元素：

定位具有特定属性名的元素：//*[@attribute_name]

示例：//*[@class] 会匹配所有具有 "class" 属性的元素。

1.2 属性名和属性值定位元素：

定位具有特定属性名和属性值的元素：//*[@attribute_name='value']

示例：//*[@id='myElement'] 会匹配 id 属性值为 "myElement" 的元素。

1.3 部分属性值定位元素：

定位具有属性值包含特定文本的元素：//*[contains(@attribute_name,'value')]

示例：//*[contains(@class,'active')] 会匹配 class 属性值包含 "active" 的元素。

1.4 多个属性进行定位：

定位具有多个属性及其对应值的元素：//*[@attribute_name_1='value_1' and @attribute_name_2='value_2']

示例：//*[@class='active' and @data-type='button'] 会匹配同时具有 class 属性值为 "active" 和 data-type 属性值为 "button" 的元素

2.层级属性结合定位

2.1定位父元素下的子元素：

//父元素名/子元素名：通过指定父元素和子元素的标签名来定位元素。

2.2 定位特定属性的父元素下的子元素：

//父元素名[@属性名='属性值']/子元素名

通过指定父元素的属性和属性值，再结合子元素的标签名来定位元素。

示例：//div[@class='container']/p

会匹配 class 属性为 "container" 的 <div> 元素下的所有 <p> 元素。

2.3定位特定属性的父元素下的特定属性的子元素：

//父元素名[@属性名1='属性值1']/子元素名[@属性名2='属性值2']：通过指定父元素和子元素的属性条件来定位元素。

示例：//ul[@id='menu']/li[@class='active']

会匹配 id 属性为 "menu" 的 <ul> 元素下，class 属性为 "active" 的所有 <li> 元素。

3.使用谓语定位

谓语用来查找某个特定的节点或者包含某个指定的值的节点，谓语被嵌在方括号中。

3.1定位符合特定索引的元素：

//tagname[position()]：通过位置索引来定位元素。索引从 1 开始。

示例：//ul/li[position() = 3] 可以匹配位于 <ul> 下的第三个 <li> 元素。

3.1定位满足特定属性条件的元素：

//tagname[@attribute='value']：通过属性条件来定位元素。

示例：//input[@type='text'] 可以匹配所有 type 属性值为 "text" 的 <input> 元素。

3.3结合多个条件定位元素：

//tagname[@attribute1='value1' and @attribute2='value2']：使用逻辑运算符 and 结合多个属性条件来定位元素。

示例：//a[@class='active' and @href='/home'] 可以匹配同时满足 class 属性值为 "active" 和 href 属性值为 "/home" 的 <a> 元素。

3.4通过文本内容定位元素：

//tagname[text()='value']：通过文本内容来定位元素。

示例：//h1[text()='Welcome']

可以匹配文本内容为 "Welcome" 的 <h1> 元素。

4.使用逻辑运算符定位

使用逻辑运算符定位是XPath中一种灵活的定位技术，允许您结合多个条件来定位元素。XPath支持以下三种逻辑运算符：and、or、not。以下是使用逻辑运算符定位元素的示例：

4.1 使用 and 运算符：

//tagname[@attribute1='value1' and @attribute2='value2']：通过结合多个属性条件，使用 and 运算符定位元素。

示例：//input[@type='text' and @name='username'] 可以匹配type属性为"text"且name属性为"username"的input元素。

4.2 使用 or 运算符：

//tagname[@attribute='value1' or @attribute='value2']：通过结合多个属性条件，使用 or 运算符定位元素。

示例：//a[@class='active' or @class='highlight'] 可以匹配class属性为"active"或"class"属性为"highlight"的a元素。

4.3 使用 not 运算符：

//tagname[not(@attribute='value')]：使用 not 运算符否定一个属性条件，定位不满足该条件的元素。

示例：//div[not(@class='header')] 可以匹配class属性不为"header"的div元素

5.使用文本定位

5.1定位文本内容相等的元素：

//tagname[text()='value']：匹配文本内容与指定值相等的元素。

示例：//a[text()='Login'] 可以匹配文本为"Login"的所有 <a> 元素。

5.2定位包含指定文本内容的元素：

//tagname[contains(text(),'value')]：匹配包含指定值的文本内容的元素。

示例：//p[contains(text(),'Lorem ipsum')] 可以匹配包含"Lorem ipsum"文本的所有 <p> 元素。

5.3根据包含特定关键词的文本内容定位元素：

//tagname[contains(text(),'keyword')]：匹配文本内容中包含特定关键词的元素。

示例：//h2[contains(text(),'Contact')] 可以匹配文本内容中包含"Contact"关键词的 <h2> 元素

6.使用部分函数定位

函数	说明	举例
contains(a,b)	选取属性或者文本包含某些字符	//div[contains(@id, 'data')] 选取 id 属性包含 data 的 div 元素
start-with(a,b)	选取属性或者文本以某些字符开头	//div[starts-with(@id, 'data')] 选取 id 属性以 data 开头的 div 元素
end-with(a,b)	选取属性或者文本以某些字符结尾	//div[ends-with(@id, 'require')] 选取 id 属性以 require 结尾的 div 元素

三、XPath语法验证

（1）在开发者工具的 Elements 中按Ctrl + F，在搜索框中输入 Xpath

（2）打开开发者工具并切换到Console（控制器），在Console中输入$x('具体的XPath')并回车执行

四、lxml的基本使用

lxml是一个HTML/XML的解析器，主要的功能是解析和提取HTML/XML数据

lxml和正则一样，也是用C语言实现的，可以利用之前学习的XPath语法，来快速的定位元素及节点信息。

# 导入模块
from lxml import etree
# html源代码
web_data = """
        <div>
            <ul>
                 <li class="item-0"><a href="link1.html">first item</a></li>
                 <li class="item-1"><a href="link2.html">second item</a></li>
                 <li class="item-inactive"><a href="link3.html">third item</a></li>
                 <li class="item-1"><a href="link4.html">fourth item</a></li>
                 <li class="item-0"><a href="link5.html">fifth item</a>
             </ul>
         </div>
        """
# 将html转成xml文件
element = etree.HTML(web_data)
# print(element)
# 获取li标签下面的a标签的href
links = element.xpath('//ul/li/a/@href')
print(links)
# 获取li标签下面的a标签的文本数据
result = element.xpath('//ul/li/a/text()')
print(result)

注：

'//ul/li/a/@href'：选择并返回<a>标签的href属性值，返回一个字符串列表。
'//ul/li/a[href]'：选择并返回包含href属性的<a>标签元素，返回一个元素列表（Element对象）。
'//ul/li/a/text()'：获取<a>标签的文本内容。